Hadoop

Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : MapReduce[modifier | modifier le code]

http://fr.wikipedia.org/wiki/Hadoop

Les innovations des technologies Big Data par Brian Gentile ¿ Chronique Solutions Selon une étude Gartner , le volume de données généré sur la seule année 2009 était plus important que le cumul des 5000 années précédentes. Les technologies doivent suivre. L'expression Big Data, apparue pour la première fois en 2008, se réfère aux technologies qui permettent aux entreprises d'analyser rapidement un volume de données très important et d'obtenir une vue synoptique. Framework .NET Un article de Wikipédia, l'encyclopédie libre. Le .NET Framework[1] est un framework pouvant être utilisé par un système d'exploitation Microsoft Windows et Microsoft Windows Mobile depuis la version 5 (.NET Compact Framework). Une version légère et limitée fournie avec un moteur d'exécution fonctionnant à l'intérieur d'un navigateur ou d'un périphérique mobile est disponible sous le nom de Silverlight.

MapReduce Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Hadoop : une plateforme de référence pour faire du Big Data Fonctionnement d’Hadoop Basé sur le principe des grilles de calcul, Hadoop fractionne les fichiers en gros blocs et les distribue à travers les nœuds du cluster. Il comprend plusieurs composants : les principaux étant les nœuds maîtres (Master nodes) et les travailleurs (Worker nodes). Les nœuds travailleurs sont parfois appelés nœuds esclaves (Slave nodes). Hadoop Cluster Node Types – Source : Hortonworks

MariaDB Un article de Wikipédia, l'encyclopédie libre. Historique[modifier | modifier le code] Un consortium baptisé « Open Database Alliance » a par ailleurs été créé pour assurer le développement du logiciel (comparable à la fondation Linux avec le noyau Linux). Big Data : avec le rachat de Gluster, Red Hat s'attaque au stockage des données non structurées Red Hat se renforce dans la gestion du Big Data et dans les données non structurées en annonçant le rachat de Gluster pour 136 millions de dollars en numéraire. Gluster, une société localisée en Californie, développe une solution logicielle de stockage Open Source adaptée à la problématique des données non-structurées, comme les emails, les vidéos, les documents, nous rappelle Red Hat. La société développe notamment un système de stockage scalable baptisé GlusterFS qui permet d'associer un pool de système de stockage à des ressources informatiques scalables, de haute performance et centralisées. Il s'agit en clair de donner la possibilité aux entreprises de s'attaquer au problème du stockage dans un environnement Big Data, avec leur solution de stockage existante, et ce à moindre coût, évidemment - Open Source oblige.

Scala (langage) Un article de Wikipédia, l'encyclopédie libre. Scala intègre les paradigmes de programmation orientée objet et de programmation fonctionnelle, avec un typage statique. Il concilie ainsi ces deux paradigmes habituellement opposés (à de rares exceptions près, telle que le langage OCaml) et offre au développeur la possibilité de choisir le paradigme le plus approprié à son problème. Il est prévu pour être compilé en bytecode Java (exécutable sur la JVM), ou .Net. Ces deux plateformes sont supportées officiellement par l'EPFL. R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows. Une enquête menée par Rexer Analytics auprès de 1 300 analystes retrouve que R est le logiciel le plus souvent utilisé lorsqu'il s'agit d'un travail en entreprise, dans le monde académique, au sein d'organismes publics ou d'ONG et chez les analystes travaillant comme consultants[2]. Face au nombre toujours croissant de paquets (on comptait près de 80 nouveaux paquets d'octobre à décembre 2007[3]), une page offre des regroupements des paquets selon les domaines abordés[4].

Introduction à Apache Hadoop : généralités sur HDFS et MapReduce Nous sommes actuellement dans l'ère de la production massive de données (BigData) dont une définition implique trois dimensions (3Vs) : Volume, Variété et Vélocité (fréquence). Les sources de données sont nombreuses. D'une part les applications génèrent des données issues des logs, des réseaux de capteurs, des rapports de transactions, des traces de GPS, etc. et d'autre part, les individus produisent des données telles que des photographies, des vidéos, des musiques ou encore des données sur l'état de santé (rythme cardiaque, pression ou poids).

Big Data : est-ce que le déluge de données va rendre la méthode scientifique obsolète Nous voici entré dans l’ère des Big Data des ensembles de données tellement gigantesques qu’ils nécessitent de nouveaux outils techniques et scientifiques pour les comprendre et en tirer du sens. Un déluge de données qui pose des questions profondes sur leur collecte, leur interprétation, leur analyse… Dans ce siècle des réseaux, la science des algorithmes, censée extraire le sens de ces amas d’information doit apprendre à comprendre ce qu’elle analyse. L’enjeu des Big Data nous adresse des questions scientifiques, mais aussi politiques et éthiques. Java Native Interface Un article de Wikipédia, l'encyclopédie libre. Voici quelques exemples d'utilisation de JNI : Certaines fonctions du matériel ou du système d'exploitation ne sont pas gérées dans les bibliothèques JavaPouvoir s'interfacer avec des applications écrites dans d'autres langagesPour les applications temps réel, utiliser un langage compilé (c'est-à-dire du code natif) sera plus rapide que de passer par le bytecode de Java. Complexité de la programmation[modifier | modifier le code]

Science des données Les différentes disciplines de la science des données. En termes généraux, la science des données est l'extraction de connaissance d'ensembles de données[1],[2]. La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées.