background preloader

MapReduce

MapReduce
Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). Dans l'étape Map le nœud analyse un problème, le découpe en sous-problèmes, et les délègue à d'autres nœuds (qui peuvent en faire de même récursivement). map(clé1,valeur1) → list(clé2,valeur2) //En pseudo code cela donneraitMap(void * document){ int cles = 1; for each mot m in document calculIntermediaire(m,cles);} reduce(key2,list(valeur2))→ list(valeur2)[1] Related:  Business Intelligence

Hadoop Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : MapReduce[modifier | modifier le code]

Criteo = Hadoop + CouchBase + Elastic Serach Pour offrir le meilleur aux annonceurs, Criteo manipule des volumes de données considérables avec des temps de réponse de quelques dixièmes de seconde. Plongeon au cœur de son architecture. C'est l'une des start-up internet françaises qui connaît actuellement le plus de succès dans le monde. Tout le monde connait aujourd'hui ces bannières publicitaires ultra-ciblées qui vous suivent d'un site à l'autre, vous rappelant les articles que vous avez vus sur un site marchand et vous proposant de retourner sur ce site pour conclure votre achat. Un véritable pari technologique lorsqu'on sait que toutes ces opérations doivent être réalisées en quelques dixièmes de seconde et que Criteo réalise le processus 3 milliards de fois chaque jour.

BigTable Un article de Wikipédia, l'encyclopédie libre. BigTable est un système de gestion de base de données compressées, haute performance, propriétaire, développé et exploité par Google[1]. Chez Google, BigTable est stockée sur le système de fichiers distribué GoogleFS. Google ne distribue pas sa base de données mais propose une utilisation publique de BigTable via sa plateforme d'application Google App Engine. ce que Hadoop ? Data warehouse, stockage et traitement distribués Définition Hadoop Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Le produit est écrit en langage Java. Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Hadoop et les analyses massives Le web n'est pas le seul à générer de grandes masses d'informations. Les analyses massives autorisent alors des optimisations bien plus fines. Benchmark Pour avoir une meilleure idée de la performance du système et de la révolution à venir : En Mai 2009 chez Yahoo Corp, utilisateur de Hadoop, 1 téra-octet (1012 ) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)... Ressources Lecture recommandée › Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données.

22 outils gratuits pour visualiser et analyser les données (1ère partie) Vous avez des données à explorer ? Voici quelques outils qui pourront vous être utiles pour les transformer en informations et en graphiques attrayants. Pour faire parler des données, rien ne vaut une panoplie d'outils de visualisation graphique. Computerworld souligne que la correction des textes se fait simplement. DataWrangler (cliquer ici pour agrandir l'image) Niveau de compétences requis : débutant avancé.Fonctionne sur tout navigateur web.En savoir plus : - Google Refine : comme un tableurIl ressemble à un tableur pour examiner à la fois les données numériques et alphanumériques, mais à l'inverse du tableur, il ne permet pas d'effectuer des calculs. Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Google Refine (cliquer ici pour agrandir l'image) Niveau de compétences requis : débutant avancé.

Les principes de l’ETL Pour alimenter le datawarehouse des différentes applications de l’entreprise, on utilise une gamme d’outils appelés ETL, pour « Extract, Transform, Load ». Comme le nom l’indique, ces outils permettent d’extraire des données à partir de différentes sources, de les transformer (format, dénomination), et de les charger dans la base de données cible, ici le datawarehouse. Les transformations confiées à un ETL sont souvent simples, mais elles peuvent dans certains cas inclure des traitements procéduraux, de véritables programmes spécifiques. Un ETL permet d’éviter la réalisation de programmes batch répétitifs, souvent semblables, dont il faudra également assurer la maintenance. L’ETL peut prendre en charge différentes natures de sources de données, tant en entrée qu’en sortie, les principales étant bien sûr les SGBD relationnels, et les flux XML, mais il peut s’agir aussi de fichiers à formats fixes ou avec séparateurs (CSV). L’ETL a vocation à travailler en différé, le plus souvent la nuit.

Les 50 plus beaux graphiques de visualisation de données ! - graphisme Ces dernières années le Web a vu émerger de nouvelles tendances sur la visualisation et la gestion graphique des données. On sait que sur la toile, une multitude d'informations circulent, entre statistiques et arts visuels découvrez notre sélection des p Studyscape Patrick Vuarnoz Suitmen Life Map par ritwikdey Web Trend Map v4.0 par Information Architects Killer Earth par Andrew Blauvelt Visualization of iTunes Libraries par Caleb Larsen Chart Arcs par Martin Dittus par Peter Crnokrak Netdisco Max Baker Networkism par Tatiana Plakhova Mo Money Mo Problems par Nick Hardeman Twingly Screensaver Time Magazine par Joe Lertola DriftNet par Norimichi Hirakawa Glocal par Jer Thorp Visualizing The Bible par Chris Harrison Barcode Plantage par Daniel A. Fyre par David Trowbridge, Micah Dowty Disarticulate par Ben Fry Visual Poetry par Boris Muller MSN History Visualization par MSN History Visualization flowerGarden par Greg Judelman, Maria Lantin Maeve insatallation par University of Applied Sciences Potsdam AmoebaAbstracts 1-3 Gcrawler

ETL, les questions à se poser ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels). Ce système ne se contente pas de charger les données, il doit les faire passer par un tas de moulinettes pour les dé-normaliser, les nettoyer, les contextualiser, puis de les charger de la façon adéquate. Nous verrons par la suite ce que chaque mot veut dire. Il est important de savoir que la réalisation de l'ETL constitue 70% d'un projet décisionnel en moyenne. Avant de commencer, visualisez le schéma d'un entrepôt et sa façon de fonctionner (gérer l'historique, dimensions, faits, etc.). Dé-normalisées : dans un DW (Data Warehouse), avoir des doublons n'est pas important, avoir un schéma en troisième forme normale est même déconseillé. Si vous cherchez des méthodes de conceptions d'ETL, et bien il n'y en a pas. III-A. III-B. III-C. III-D. III-E. Et oui !

PivotViewer Control Getting Started Walking Through a Silverlight Application Take a tour of the XAML and Javascript generated by an application template that's installed with the Silverlight SDK. Organizing XAML Assets Learn how to organize XAML assets in Expression Design and Expression Blend to maximize developer efficiency. Hosting HTML Content This video demonstrates various ways you can use existing HTML content within your Silverlight application including full pages, fragments, or syndicated content. Understanding Mouse Input Learn about Mouse input and how to use some of the mouse functionality available in Silverlight. Using Custom Fonts Learn how to download and use a custom font with a Text Block in Silverlight. Adding Silverlight to a Web Page Learn what "silverlight.js" helper file is used for and what the parameters on the Silverlight plug-in can do. Silverlight 5 Silverlight 5 Release Overview In this video, Pete provides an overview of the new and updated features in the release of Silverlight 5.

Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue Le Data Lake doit permettre, enfin, de casser les silos des systèmes d’information. C’est aussi un moyen de gagner en agilité. L'expert Vincent Heuschling répond aux questions du JDN. Qu’est-ce qu’un Data Lake ? Le Data Lake, ou lac de données, est un concept relativement nouveau lié à la mouvance Big Data. L’émergence du concept de Data Lake s’est accélérée grâce avec la convergence du besoin de plateformes fédératrices dans les entreprises et de nouveaux moyens techniques économiques apportés par les technologies de Big Data. En quoi est-ce différent d'un datawarehouse ? La tentation est très souvent forte d’apparenter le Data Lake à un classique datawarehouse, mais les différences entre les deux sont importantes, et ceci sur plusieurs plans. Avec le Data Lake, l'analyse de données devient opérationnelle Un autre facteur différenciant le Data Lake vis-à-vis de son ancêtre réside dans le coté opérationnel qui peut lui être associé. Quels sont les atouts d'un Data Lake ?

Ressources : Visualisation de Données avec Javascript - ressource-javascript Aujourd'hui sur le Blog du Webdesign, découvrez une collection de script javascript dédiés au charting. Parce que nous vivons entourés de données, voilà une sélection d'outils pour transformer quelques chiffres ternes en des graphiques fort sympathiques. Moowheel est certes un peu vieux et semble abandonné depuis 2008. Néanmoins, je le trouve très intéressant graphiquement. site: Connaissez-vous Raphaël? site: Basé comme son nom l'indique sur Raphaël, gRaphaël fournit des charts statiques ou animées, simples mais efficaces. site: Dans la lignée des visualisations créées avec raphaëljs, voilà Morris, pourvu de jolis survols et d'un nom de toute beauté. Site et demo: Protovis est une library dont le développement a été arrêté.

Louis Naugès Dans la première partie de cette analyse, j’ai présenté les trois familles d’intelligence artificielle (IA) et l’état actuel de l’A N I, Artificial Narrow Intelligence, l’IA spécialisée sur une seule activité. Face à nous, les A N I ont gagné la bataille des usages spécialisés. Il reste encore quelques activités humaines pour lesquelles des solutions A N I sont encore en retrait, en particulier dans le domaine des arts et de la pensée, oui ; pour combien de temps ? Je prendrai un seul exemple, dans le domaine de la musique. A G I : Artificial General Intelligence Rappel : une A G I est une intelligence artificielle capable de réaliser de très nombreuses activités différentes, comme un être humain. En 2017, il n’existe aucune A G I opérationnelle, et il faudra encore beaucoup d’années pour atteindre ce niveau d’IA. Par contre, de nombreux outils sont déjà disponibles, qui nous permettent de faire progresser très vite cette quête de l’A G I. Combien d’années, «That’s the question!».

Related: