background preloader

"Big data" / Data science

Facebook Twitter

Kepler, Champollion, Darwin et les pionniers du Big Data - Luc de Brabandère, à l'USI.

Luc de Brabandere

Welcome to Apache™ Hadoop®! Interview de Gilles Babinet - Le Big Data. Interview de Gilles Babinet - Le Big Data. Plus de Big Data ? Moins d'Anonymat. L’anonymat devient une impossibilité mathématique. C’est ce que nous explique Patrick Tucker dans Technologie Review , la revue scientifique en ligne du MIT. En revenant sur la directive européenne de 1995 sur la vie privée , il met l’accent sur l’évolution de la notion de « donnée personnelle » depuis 18 ans. La quantité de données créée chaque année tend à redéfinir cette notion et de fait, celle de l’anonymat. Un travailleur américain produit 5.000 mégaoctets de données par jour, selon l’article, soit autant d’informations - très - personnelles à exploiter et qui rendent l’ anonymat « algorithmiquement impossible ». Et il va de soi que les enjeux commerciaux et publicitaires sont considérables pour ceux qui arrivent à croiser les données numériques avec celles du « monde réel ».

Des données neutres et impersonnelles en apparence, souvent doublées d’une promesse d’anonymat parfois toute relative et qui pourraient, selon les chercheurs Adam Sadilek et John Krumm prédire l’avenir . Ysance. Vous Romain Chaumais from Paris ? Du "data déluge" au "big data" BigData Ysance from Jean Michel Billaut on Vimeo.

vous Romain Chaumais from Paris ? Du "data déluge" au "big data"

(quelques petites coupures de son dans l'e-interview de Romain, mais c'est écoutable... Quelques conseils : il vaut mieux être en Ethernet sur la box qu'en wifi, éviter le contre-jour, mettre une pub sur votre entreprise derrière vous... Une maquilleuse n'est pas indispensable, par contre quand on aura la fibre, faudra y penser..) Que veut dire Ysance ? BigData Ysance. Philippe Naïm : "Nous créons de l'intelligence collective entre les métiers"

En charge du développement et de la stratégie de Safran Analytics, Philippe Naïm explique comment Safran veut utiliser le big data pour créer de la valeur sur les marchés du groupe : l'aéronautique, la défense et sécurité.

Philippe Naïm : "Nous créons de l'intelligence collective entre les métiers"

Quel est le rôle de Safran Analytics au sein du groupe ? Safran Analytics a été lancé en janvier. Hadoop — Wikipédia. Un article de Wikipédia, l'encyclopédie libre.

Hadoop — Wikipédia

Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS.

Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] MapReduce. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau).

MapReduce

MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation. Présentation[modifier | modifier le code] R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre.

R (langage de programmation et environnement statistique)

Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. Science des données. Les différentes disciplines de la science des données.

Science des données

Eli Pariser: Beware online "filter bubbles". Comment les algos nous rendent tous débiles. N’avez-vous jamais eu l’impression de tourner en rond sur le Net ?

Comment les algos nous rendent tous débiles

Un peu comme un poisson rouge à qui on aurait filé l’océan et qui ne voudrait pas quitter son bocal. Chaque jour, je me rends sur les mêmes sites, réseaux sociaux, les mêmes apps... bien conscient, pourtant, de l’immensité de la Toile et ses services connexes connectés. Un phénomène encore plus insidieux s’est installé dans mon bocal : je tourne dans le même sens. J’écoute la même musique sur Spotify, je mate des vidéos qui se ressemblent sur YouTube, mon fil d’actu Facebook est une l’antithèse même de la notion de surprise... On aurait vite fait de jeter la faute à une curiosité paresseuse. C’est l’une des thématiques abordées par Philippe Vion-Dury dans son ouvrage « La nouvelle servitude volontaire. Philippe Vion-Dury est un journaliste et chroniqueur spécialisé dans les questions politiques et numériques.

Note importante Philippe Vion-Dury est un journaliste passé par Rue89. Armée de robots anti-russes. Армия анти-российских интернет-ботов. Big Data en santé : Quels usages ? Quels bénéfices ? Bioéthique. Oublier le sens, oublier la science, au profit de la croyance. Etienne Klein Découvertes Récentes en Physique. Fast.ai · Making neural nets uncool again. Kaggle: Your Home for Data Science. Constant Bridon. Constant Bridon. Constant Bridon - Feature Importance and Ensemble Methods : a new perspective. Racing an Autonomous Toy Car from Scratch Constant Bridon. Racing an Autonomous Toy Car from Scratch Powered by Machine Learning by Constant Bridon.