background preloader

Big Data : est-ce que le déluge de données va rendre la méthode scientifique obsolète

Big Data : est-ce que le déluge de données va rendre la méthode scientifique obsolète
Nous voici entré dans l’ère des Big Data des ensembles de données tellement gigantesques qu’ils nécessitent de nouveaux outils techniques et scientifiques pour les comprendre et en tirer du sens. Un déluge de données qui pose des questions profondes sur leur collecte, leur interprétation, leur analyse… Dans ce siècle des réseaux, la science des algorithmes, censée extraire le sens de ces amas d’information doit apprendre à comprendre ce qu’elle analyse. L’enjeu des Big Data nous adresse des questions scientifiques, mais aussi politiques et éthiques. Les Big Data, c’est le dossier de la semaine d’InternetActu qui commence par un retour sur un article fondateur de 2008 qui posait les bases de la révolution à venir. « Il y a soixante ans, les ordinateurs ont rendu l’information lisible. Image : La fin de la théorie scientifique ? Les réactions compilées par les contributeurs experts de la cyberculture de The Edge sont également intéressantes. Hubert Guillaud

OpenWorld 2011 : Avec Exalytics, Oracle analyse des To de données en mémoire Il fallait s'attendre à ce qu'Oracle concocte une réponse aux appliances analytiques in memory de SAP. C'est chose faite avec la machine Exalytics qui intègre, de façon parallélisée, la base de données en mémoire TimesTen, la suite BI d'Oracle et la base multidimensionnelle Essbase. Le tout logé dans une armoire équipée de quatre Xeon 10 coeurs pouvant accueillir en mémoire de 5 à 10 To de données compressées transmis depuis une machine Exadata. Des réponses quasi instantanées aux requêtes et une interface de visualisation interactive pour accélérer l'analyse. Après les machines Exadata et Exalogic Elastic Cloud, combinant matériel et logiciels pour optimiser la gestion des bases de données (pour l'une) et des applications sous Java (pour l'autre), on se doutait qu'Oracle n'en resterait pas là. Exalytics fonctionne avec ExadataLa machine Exalytics associe elle aussi de façon étroite le matériel et le logiciel, de façon à optimiser les échanges de données et leur traitement.

Vers un monde de données ? Nous sommes entrés dans un monde de données, dans un monde où les données sont en passe de devenir l’essence même de la connaissance et de l’information. La donnée (data) est la plus petite part d’information accessible, à la manière des zéros et des uns qui constituent les bits d’information à l’heure du numérique. Elle est déterminée par des valeurs, par des champs qui s’appliquent à elle et la qualifie. Avec l’informatisation de notre quotidien, tout devient données. Les données sont le moteur du web sémantique de Tim Berners-Lee (ce web de données ou web 3.0) comme du web² de John Battelle et Tim O’Reilly. Ces données deviennent intelligentes par leur recoupement et leurs capacités à adapter notre environnement au contexte que les machines perçoivent de nous via leurs capteurs. Ces données sont multiples, hétéroclites, hétérogènes, mais elles se relient les unes aux autres. Car le monde qu’elles contribuent à façonner n’est pas encore aussi lisse et lisible qu’elles le promettent.

Une société de la requête (3/3) : Comprendre Google Dans le monde numérique d'aujourd'hui, il est nécessaire de comprendre le fonctionnement intrinsèque des systèmes que nous utilisons. En novembre 2009, la conférence sur la "Société de la requête" s'est ainsi intéressé à Google, pour comprendre la manière dont il nous manipule et à partir de là, imaginer comment le contourner et le subvertir. Retour sur la Googlisation de nos vies... La machine à globaliser : réinterpréter les résultats des machines Pour la chercheuse Esther Weltevrede, membre de GovCom.org, une association hollandaise dédiée à la création d'outils politique en ligne, et de l'Initiative Méthodes numériques (Digital methods initiative), la question clef à se poser est "quel type de machine à globaliser est Google ?" Image : Esther Weltevrede photographiée par Anne Helmond. Si le PageRank est considéré comme un système de classement mondial de toutes les pages web, conçu pour toutes les informations du monde, que se passe-t-il quand Google passe à l'échelle locale ?

OpenWorld 2011 : Oracle bâtit une solution pour traiter les Big Data Une appliance de plus s'ajoute au catalogue Oracle. Cette fois, il s'agit de prendre à bras le corps le phénomène Big Data. Pour le faire, Oracle ne rechigne pas à recourir lui aussi au framework Open Source Hadoop MapReduce dans un assemblage de logiciels qui comprend aussi le langage d'analyse statistique R, avec, qui l'aurait cru, une base NoSQL maison. Les Big Data, avalanche de données générée par les réseaux sociaux, les capteurs mobiles, compteurs électriques et autres dispositifs ne peuvent généralement pas être traitées en l'état par les solutions de BI. Trop d'informations déversées sans discernement, mais qui peuvent receler des « pépites », expliquait Andy Mendelsohn, senior vice-président, responsable des technologies serveur d'Oracle, en introduction de son keynote au deuxième jour d'OpenWorld. La partie matérielle fonctionne sous Oracle Linux et héberge une machine virtuelle Java Hotspot.

Big data Un article de Wikipédia, l'encyclopédie libre. Une visualisation des données créée par IBM[1] montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[2]. Croissance et Numérisation de la Capacité de Stockage Mondiale de L'information[3]. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Certains supposent qu'ils pourraient aider les entreprises à réduire les risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée. Dimensions des big data[modifier | modifier le code] Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[15]. Volume[modifier | modifier le code] Variété[modifier | modifier le code]

Réseaux contre hiérarchies, liens faibles contre liens forts Emeutes, révolution, activisme… Depuis plusieurs mois, chercheurs et commentateurs s’interrogent sur les liens entre médias sociaux et révolution. C’est le sujet du dossier de la semaine d’InternetActu. Après un regard sur les récentes émeutes britanniques, retour sur l’article de fonds publié par Malcolm Gladwell l’année dernière. Pour le New Yorker, Malcolm Gladwell (blog) a rédigé une brillante mise au point sur les différences entre l’activisme en ligne et l’activisme réel, dans un article intitulé « Petit changement : pourquoi la révolution ne sera pas twittée » où il montre les limites des organisations en réseaux comparés aux structures hiérarchiques classiques. Le lundi 1er février 1960, vers 16h30, 4 étudiants étaient assis au comptoir du Woolworth, un bar du centre-ville de Greensboro, en Caroline du Nord. 4 étudiants en première année d’un collège noir à proximité. Image : Les 4 de Greensboro : Ezell A. « Le monde, nous dit-on, est au milieu d’une révolution. Pour Jillian C.

Big Data : avec le rachat de Gluster, Red Hat s'attaque au stockage des données non structurées::Gestion des données Red Hat se renforce dans la gestion du Big Data et dans les données non structurées en annonçant le rachat de Gluster pour 136 millions de dollars en numéraire. Gluster, une société localisée en Californie, développe une solution logicielle de stockage Open Source adaptée à la problématique des données non-structurées, comme les emails, les vidéos, les documents, nous rappelle Red Hat. La société développe notamment un système de stockage scalable baptisé GlusterFS qui permet d'associer un pool de système de stockage à des ressources informatiques scalables, de haute performance et centralisées. Il s'agit en clair de donner la possibilité aux entreprises de s'attaquer au problème du stockage dans un environnement Big Data, avec leur solution de stockage existante, et ce à moindre coût, évidemment - Open Source oblige. Red Hat compte ainsi adapter l'offre de Gluster tant on permise qu'au sein de son offre de Cloud Public. ses investissements dans ce secteur.

The World According to LINQ Erik Meijer editor's note: This article uses many mathematical symbols that may not render propery in your browser. If the symbols do not display, you may wish to read the article in PDF format Programmers building Web- and cloud-based applications wire together data from many different sources such as sensors, social networks, user interfaces, spreadsheets, and stock tickers. Most of this data does not fit in the closed and clean world of traditional relational databases. It is too big, unstructured, denormalized, and streaming in realtime. Mathematicians long ago observed similarities between seemingly different mathematical structures and formalized this insight via category theory, specifically the notion of monads9 as a generalization of collections. LINQ was introduced in C# 3.0 and Visual Basic 9 as a set of APIs and accompanying language extensions that bridge the gap between the world of programming languages and the world of databases. Standard Query Operators and LINQ

Vouloir un web coopératif Par Daniel Kaplan le 27/06/08 | 17 commentaires | 17,522 lectures | Impression En 2006, Time Magazine nous nommait, nous tous, “personnes de l’année“. L’explosion des blogs, des plates-formes de partage d’images, des réseaux sociaux, donnait le sentiment d’une prise d’assaut de l’univers médiatique par son propre public. Mais en page intérieure du numéro de l’année suivante, l’hebdomadaire reproduisait presque la même couverture, avec un autre titre : “Personne de l’année : Eux“, eux les médias, les puissants, les influents. Que s’est-il passé d’une année sur l’autre ? Oui : la prise de conscience que le web “massivement relationnel” ne transforme pas à lui tout seul la vie démocratique, ni les médias. Portabilité, propriété La discussion sur la “portabilité” des profils associés aux réseaux sociaux est sans doute la plus symbolique du moment. Elle marque d’une part la fin d’une certaine naïveté vis-à-vis des acteurs du web 2.0 : Rupert Murdoch, Yahoo! La révolution des petits riens

Hadoop Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : Le HDFS n'est pas entièrement conforme aux spécifications POSIX, en effet les exigences relatives à un système de fichiers POSIX diffèrent des objectifs cibles pour une application Hadoop. MapReduce[modifier | modifier le code] Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce. HBase[modifier | modifier le code] Article détaillé : HBase.

Big Data, Speed and the Future of Computing Big data is, yes, about more data — the rising flood from corporate databases, Web browsing trails, sensors and social network communications. But it is just as much about speed. If “big data” is more than a marketing term, it has to be the raw material for making smarter decisions, faster. And that means, as the big-data industry evolves, the need for groundbreaking new approaches to computing, both in hardware and software. A simple example: the Watson question-answering computer that beat two human “Jeopardy!” The speed requirement meant I.B.M.’s Watson had to do its near-instant data digging in memory instead of finding data on hard disks. But getting answers quickly in the world of big data necessitates this new approach, called in-memory processing. Early signs of the move toward this new architecture can be seen in recent announcements of new computer appliances designed for high-speed data applications. Mr. In discussing the path over the next decade, Mr.

Related: