background preloader

Du contenu roi aux données reines

Du contenu roi aux données reines
Souvenez-vous… il y a quelques années, le contenu était considéré comme la matière première du web : Celui qui maîtrisait le contenu maitrisait le web (les portails qui agrégeaient de très nombreuses sources de contenu concentraient également l’audience). Puis il y a eu MySpace, les Skyblogs, Facebook, Twitter, FourSquare… et maintenant il parait que c’est la communauté qui est reine. Certes, les plateformes sociales sont indéniablement en haut des tableaux d’audience, mais je reste convaincu que sans contenus une communauté n’est pas viable. Comprenez par là que ce sont les contenus qui alimentent les conversations et font tourner les communautés. De ce point de vue là, les plateformes sociales ne sont qu’un intermédiaire entre le contenu et les internautes. Les données à la base du… journalisme de données Nous parlons bien ici de données brutes en très grande quantité (des chiffres) qu’il serait trop coûteux de traiter. Après les portails de contenus, les portails de données

Wen Mining Course Unit on Web Log Analysis Web Mining Course Modules To get the presentations, add www.kdnuggets.com/web_mining_course/ in front of ppt files below Module 1: Introduction to Web Mining wm1-web-mining-intro.pptModule 2a: Web Server Log wm2a-web-server-log.pptModule 2b: Unix tools for web log analysis wm2b-unix-web-log-analysis.pptModule 3a: Hit Analysis wm3a-hit-analysis.ppt Module 3b: Gawk tools for web log analysis< wm3b-gawk-web-log-analysis.ppt Module 4a: Visit Analysis; Bot or Not? wm4a-visit-analysis.ppt Module 4b: Perl tools for web log analysis wm4b-perl-web-log-analysis.ppt Basic Perl script for web log parsing (web_log_parse.txt) Module 5: Behavior modeling wm5-behaviour-analysis.ppt Assignments Note: Professors using these modules can get answers by contacting Gregory Piatetsky directly at gregory at kdnuggets dot com. Data This data can be downloaded from kdlog.zip (0.6 MB) in www.kdnuggets.com/web_mining_course/ directory. First 100 log lines are in the unzipped file d100.log in the same directory.

Information Overload Fueled by Bytes, and Hype Pourquoi le data-journalisme, c’est l’avenir en marche | Nouvelle formule Elle s’appelle Caroline Goulard, elle est encore étudiante (en 5e année, tout de même), elle est en passe de devenir LA spécialiste française du journalisme de bases de données, le databeyyyse djournaliseume en bon franglais, qui commence à faire florès ailleurs, entendre aux Etats-Unis et en Grande Bretagne, comme d’habitude, mais pas chez nous. Son blog est une mine de renseignements – et de (plaisants) fantasmes éditoriaux - pour ceux qui, comme Sophie Gohier, mon éditrice préférée, ou votre dévoué serviteur pensent que l’info en ligne, c’est pas seulement (surtout pas?) du batonnage de dépêches, des Web reportages et de la sous-télévision. Caroline Goulard a deux actualités: - Un article limpide sur le database journalism, confié à Owni. Nos ambitions, donc. Ca fait quelques mois, voire quelques années, qu’on y pense, aux bases de données. Alors, on cherche la martingale, comme dirait Baroin, la recette miracle. Parmi les ingrédients, il y a aura Pierre Falga, j’aimerais bien.

L'exploration des données à la portée des non-initiés En téléchargeant un module d'extension du tableur Excel développé par 11Ants, les TPE-PME peuvent accéder à des outils d'analyse mathématiques auparavant réservés aux seuls experts. Pour amener les petites et moyennes entreprises (PME) à se servir d'outils de modélisation mathématiques et de prévision statistique, il faut intégrer ceux-ci dans des logiciels qu'elles connaissent. En suivant cette logique, 11Ants propose une solution qui intègre des fonctions de calculs de probabilités et d'analyse prédictive à Excel. "Nous éliminons l'intimidation des non-initiés en intégrant des outils de 'data mining' à un environnement qui leur est familier", explique à L'Atelier Tom Fuyala, l'un des responsables du projet. Plus concrètement, les fonctions introduites correspondent à une série de techniques mathématiques développées par l'université néo-zélandaise de Waikato. Des algorithmes ajoutés aux paramètres Une solution avantageuse pour les petites entreprises

How much information is there in the world? Think you're overloaded with information? Not even close. A study appearing on Feb. 10 in Science Express, an electronic journal that provides select Science articles ahead of print, calculates the world's total technological capacity -- how much information humankind is able to store, communicate and compute. "We live in a world where economies, political freedom and cultural growth increasingly depend on our technological capabilities," said lead author Martin Hilbert of the USC Annenberg School for Communication & Journalism. So how much information is there in the world? Prepare for some big numbers: Looking at both digital memory and analog devices, the researchers calculate that humankind is able to store at least 295 exabytes of information. Telecommunications grew 28 percent annually, and storage capacity grew 23 percent a year. "These numbers are impressive, but still miniscule compared to the order of magnitude at which nature handles information" Hilbert said.

Quatre voies du datajournalism Le datajournalism ou journalisme de données, peut difficilement se résumer à un type de contenus ou à un type de démarche. Il requiert des compétences spécifiques, selon l'usage qui en est fait. J’ai eu l’impression, ces derniers jours, de répéter plusieurs fois la même chose à des personnes différentes (ce qui est un vrai plaisir quand il s’agit de datajournalism). Photo CC par Ian-S sur Flickr Finalement, le datajournalism ou journalisme de données, peut difficilement se résumer à un type de contenus ou à un type de démarche. 1-COMPRÉHENSION : le datajournalism permet de mieux comprendre le monde. Pour cette visualisation des succès au box office américain depuis 1986, l’équipe du nytimes.com a particulièrement travaillé sur la forme des courbes, et leur couleur. Le datajournalism, c’est de la visualisation d’information. Pour faire comprendre une affaire d’espionnage politique à Madrid, elpais.com a mis au point une visualisation animée et interactive.

Six Stunning Projects That Show the Power of Data Visualization Data visualization is taking the web by storm and, with a little luck, it might be the next big thing in online journalism. Buoyed by the open data movement and accelerating change in newsrooms around the country, it has become something more than just flashy graphics and charts — it is a new form of visual communication for the 21st century. In the coming months, I’ll be writing about this emerging field for MediaShift. What is Data Visualization? At its core, data visualization is the visual representation of information served up with a healthy dose of innovation and creativity. This periodic table of visualization methods by the folks over at VisualLiteracy.org illustrates a number of different elements or viz building blocks. Below, you’ll find six examples of data visualization from around the web and across the globe that provide an overview of the techniques and approaches to data visualization. 1. Hans Rosling makes stats come alive 2. An image from the Geography of a Recession 3.

Why We Should Learn the Language of Data Illustration: Ellen Lupton How can global warming be real when there’s so much snow?” Hearing that question — repeatedly — this past February drove Joseph Romm nuts. A massive snowstorm had buried Washington, DC, and all across the capital, politicians and pundits who dispute the existence of climate change were cackling. The family of Oklahoma senator Jim Inhofe built an igloo near the Capitol and put up a sign reading “Al Gore’s New Home“. Romm — a physicist and climate expert with the Center for American Progress — spent a week explaining to reporters why this line of reasoning is so wrong. Statistics is hard. Consider the economy: Is it improving or not? Problem is, to calculate that stat, economists remove stores that have closed from their sample. Or take the raging debate over childhood vaccination, where well-intentioned parents have drawn disastrous conclusions from anecdotal information. Granted, thinking statistically is tricky. That’s precisely the point.

Gapminder: Unveiling the beauty of statistics for a fact based world view.

Related: