L’embarras du choix - Comment choisir la bonne plate-forme pour Big Data / Hadoop ?

Cette année, le big data est devenu un sujet pertinent dans beaucoup d’entreprises. Bien qu'il n’y ait pas de définition standard du terme “big data”, Hadoop est de facto un standard pour le traitement big data. Presque tous les grands éditeurs de logiciels tels que IBM, Oracle, SAP et même Microsoft utilisent Hadoop. Cependant une fois que vous avez choisi d’utiliser Hadoop, la première question à se poser est de savoir comment débuter et quel produit choisir pour vos traitements big data. Alternatives de plates-formes Hadoop L’illustration suivante montre différentes alternatives de plates-formes Hadoop. Dans le paragraphe qui suit, nous nous attarderons sur les différentes alternatives en commençant par Apache Hadoop. Apache Hadoop La version courante du projet Apache Hadoop (version 2.0) inclut ces modules : Hadoop Common: les utilitaires communs qui supportent les autres modules d’Hadoop. Problème 1: installation d’un cluster complexe Problème 2: usage de l'écosystème Hadoop Apache :

MariaDB Native Data Analysis Comes to MongoDB | CIO Seeking to make it easier for you to apply analytics to your big data stores, Pentaho today announced the general availability of the latest version of its business analytics and data integration platform. The Pentaho 5.1 release is intended to bridge the "data-to-analytics divide" for the whole spectrum of Pentaho users, from developers to data scientists to business analysts. Pentaho 5.1 adds the capability to run code-free analytics directly on MongoDB data stores, incorporates a new data science pack that acts as a data science "personal assistant," and adds full support for the Apache Hadoop 2.0 YARN architecture for resource management. "The new capabilities in Pentaho 5.1 support our ongoing strategy to make the hardest aspects of big data analytics faster, easier and more accessible to all," says Christopher Dziekan, executive vice president and chief product officer at Pentaho. Data Integration Platform Enables Native Analysis of MongoDB Data Follow Thor on Google+

Réseau de neurones artificiels Un article de Wikipédia, l'encyclopédie libre. Un réseau de neurones artificiels est un modèle de calcul dont la conception est très schématiquement inspirée du fonctionnement des neurones biologiques. Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type probabiliste, en particulier bayésien. Ils sont placés d’une part dans la famille des applications statistiques, qu’ils enrichissent avec un ensemble de paradigmes [1] permettant de créer des classifications rapides (réseaux de Kohonen en particulier), et d’autre part dans la famille des méthodes de l’intelligence artificielle auxquelles ils fournissent un mécanisme perceptif indépendant des idées propres de l'implémenteur, et fournissant des informations d'entrée au raisonnement logique formel. En modélisation des circuits biologiques, ils permettent de tester quelques hypothèses fonctionnelles issues de la neurophysiologie, ou encore les conséquences de ces hypothèses pour les comparer au réel.

SQLite Home Page Avec Dataflow, Google analyse les flux de données à la volée via 01Business le 25/06/14 à 21h20 Google a présenté à l’occasion de Google I/O, sa conférence développeurs un nouveau outil au sein de sa Google Cloud Plateform. Encore en bêta privé, Dataflow permettrait de créer des flux de données (pipelines) à la volée ou en mode batch que l’on injecte ensuite dans BigQuerry, l’outil big data maison. Sans se soucier de la « tuyauterie » derrière. Ce qui ressemble fortement au service Kinesis d’Amazon Web Services qui, selon AWS, « peut collecter et traiter des centaines de téra-octets de données par heure, provenant de centaines de milliers de source. » Dataflow s’appuie sur d’autres outils de Google comme Flume qui agrège un grand volume de données et MillWheel qui assure le traitement et la cohérence des données.

Le Big Data The MongoDB 2.6 Manual — MongoDB Manual 2.6.7 Les nouveaux terrains de jeu du Big Data C'est chez les géants du net qu'est né le concept et les technologies du Big Data. Mais ce domaine s'étend désormais bien au-delà du web, dans la finance, l'automobile, l'énergie... C'est dans la Silicon Valley, chez les géants du net, qu'est né le concept et les technologies du Big Data. C'est pour indexer Internet que Google a inventé l'architecture distribuée de traitement MapReduce, la base du framework Hadoop. Que ce soit pour indexer Internet, segmenter leurs utilisateurs pour leur proposer de la publicité ou des services, les Google, Facebook, LinkedIn et Yahoo ont véritablement inventé le Big Data moderne. Tous les secteurs d'activités embrayent derrière le marketing Aujourd'hui, bien d'autres secteurs commencent à s'intéresser au Big Data. Plusieurs facteurs les poussent aujourd'hui à franchir le pas. Un second facteur pousse en faveur de l'adoption du Big Data : c'est le cloud computing. L'internet des objets, un puissant levier en faveur du Big Data

#BigData : Un marché qui devrait atteindre 25 milliards de dollars d'ici fin 2016 Si le Big Data a de plus en plus le vent en poupe c’est pour une raison très simple : il va devenir vital pour quasiment toutes les entreprises dans tous les secteurs d’activité d’ici la fin de la décennie. La rédaction de Maddyness vous invite à décrypter les informations clés à connaître sur ce secteur qui devrait atteindre les 25 milliards de dollars de chiffre d’affaires d’ici la fin 2016, selon le cabinet IDC. Un potentiel énorme Si le terme de « Big Data » faisait encore peur il y a peu, il est véritablement en train de s’immiscer dans un grand nombre de DSI et plus généralement dans de nombreuses sociétés. Et le potentiel du secteur ne s’arrête pas là puisque même les poids lourds du numérique et/ou de l’informatique sont encore très loin d’avoir exploité la totalité des possibilités du Big Data. Pour en savoir plus sur l’avenir, les enjeux et les perspectives de la Data, RDV le 5 Février prochain à la Gaité Lyrique pour la 7ème édition de la Startup Keynote.

NoSQL : arrêtons de dire n’importe quoi J’ai regardé le mouvement NoSQL évoluer au fil des années. On y retrouve à peu près tout ce qui fait l’informatique depuis que le monde IT est monde : brillance et troll, hype et génie, utile et gadget, buzz et fact, sam et max, etc. De plus on peut mettre n’importe quoi sous le label NoSQL, et du coup ça a été fait. En fait un fichier est déjà une base de données NoSQL :) Mais rant mise à part, des projets comme redis, riak, elastic search ou mongodb changent vraiment la donne. Malheureusement, tout comme d’autres technos du moment (prog asychrone, tout-http, pre-processeurs, generateurs…), les gens ont tendance à l’utiliser comme la barre de fer, la silver bullet, le passe-partout, le tournevis sonique, bref, le truc à tout faire. L’adage populaire dit “quand on a un bon marteau, tous les problèmes ressemblent à des clous”. Ca donne du NoSQL utilisé partout, pour tout, brandi comme LA solution, vendu à des débutants comme une panacée de traitement d’informations.

Pentaho intègre ses outils à Yarn et analyse nativement MongoDB La version 5.1 de la plateforme analytique de Pentaho propose un Pack pour aider les Data Scientists à préparer les données. Cliquer sur l'image. Pour renforcer encore ses capacités d'exploitation des big data, l'éditeur Open Source Pentaho a finalisé l'intégration de Yarn avec sa plateforme d'intégration de données. Il accède aussi directement aux données de MongoDB. Avec la version 5.1 de sa plateforme d'intégration et d'analyse de données, Pentaho cherche à simplifier le traitement des big data, tant pour les développeurs que pour les data scientists. Par ailleurs, pour les utilisateurs spécialistes des données, il sort le Pack Data Science qui fonctionne un peu à la manière d'un assistant et permet de bâtir des représentations à 360 degrés des vues clients en associant plusieurs sources de données, celles de MongoDB et celles provenant de réseaux sociaux, par exemple.

louischatriot/nedb