Des social graph aux interest graph Souvenez-vous, il y a deux ans je vous parlais de Gravity, une start-up qui avait pour ambition de révolutionner les forums : Gravity = Forum 2.0 ?. La particularité de cette start-up était de miser sur un algorithme assez complexe permettant d’enrichir les profils des membres en fonction de leurs lectures / contributions. Traduction : des profils qualifiés en fonction de ce que les utilisateurs font et non de ceux qu’ils connaissent. Cette approche centrée sur les goûts n’est ps nouvelle, car elle est déjà utilisée par des services de recommandation musicale comme Pandora. Celles et ceux qui ont pu tester Pandora il y a quelques années (avant la restriction aux utilisateurs US) savent a quel point leur moteur de recommandation est supérieur aux autres. Tout le problème des systèmes de recommandation communautaires est qu’ils ont tendance à niveler par le bas et ne vous propose que les produits qui ont une bonne popularité moyenne auprès de la communauté.
Wen Mining Course Unit on Web Log Analysis Web Mining Course Modules To get the presentations, add www.kdnuggets.com/web_mining_course/ in front of ppt files below Module 1: Introduction to Web Mining wm1-web-mining-intro.pptModule 2a: Web Server Log wm2a-web-server-log.pptModule 2b: Unix tools for web log analysis wm2b-unix-web-log-analysis.pptModule 3a: Hit Analysis wm3a-hit-analysis.ppt Module 3b: Gawk tools for web log analysis< wm3b-gawk-web-log-analysis.ppt Module 4a: Visit Analysis; Bot or Not? wm4a-visit-analysis.ppt Module 4b: Perl tools for web log analysis wm4b-perl-web-log-analysis.ppt Basic Perl script for web log parsing (web_log_parse.txt) Module 5: Behavior modeling wm5-behaviour-analysis.ppt Assignments Note: Professors using these modules can get answers by contacting Gregory Piatetsky directly at gregory at kdnuggets dot com. Data This data can be downloaded from kdlog.zip (0.6 MB) in www.kdnuggets.com/web_mining_course/ directory. First 100 log lines are in the unzipped file d100.log in the same directory.
Pourquoi le data-journalisme, c’est l’avenir en marche | Nouvelle formule Elle s’appelle Caroline Goulard, elle est encore étudiante (en 5e année, tout de même), elle est en passe de devenir LA spécialiste française du journalisme de bases de données, le databeyyyse djournaliseume en bon franglais, qui commence à faire florès ailleurs, entendre aux Etats-Unis et en Grande Bretagne, comme d’habitude, mais pas chez nous. Son blog est une mine de renseignements – et de (plaisants) fantasmes éditoriaux - pour ceux qui, comme Sophie Gohier, mon éditrice préférée, ou votre dévoué serviteur pensent que l’info en ligne, c’est pas seulement (surtout pas?) du batonnage de dépêches, des Web reportages et de la sous-télévision. Caroline Goulard a deux actualités: - Un article limpide sur le database journalism, confié à Owni. Nos ambitions, donc. Ca fait quelques mois, voire quelques années, qu’on y pense, aux bases de données. Alors, on cherche la martingale, comme dirait Baroin, la recette miracle. Parmi les ingrédients, il y a aura Pierre Falga, j’aimerais bien.
Information Overload Fueled by Bytes, and Hype L'homme, un visible La visibilité : chercher la valeur dans un numérique abondant Le groupe Spoon vient de vendre 100 000 albums par l'intermédiaire du label indépendant Merge, tout ceci, grâce à la visibilité permise par le Net sans aucune aide de l'industrie musicale classique. Le cas de Spoon n'est pas isolé et de nombreuses expériences apparaissent de plus en plus qui vont dans le même sens avec plus ou moins de réussite. Du coup, il serait peut-être utile de comprendre comment un artiste indépendant peut tirer partie de la visibilité apportée par le Net. La visibilité est la valeur Dans un système abondant (les œuvres numériques par exemple), la visibilité est la seule valeur qu'il faut en priorité rechercher. D'abord, il faut comprendre que la visibilité d'un artiste dépend bien sûr de son talent. La visibilité est la valeur sans aucun doute. La rareté est à rechercher dans l'attention de l'individu On peut s'avancer à souligner que la rareté n'est plus à rechercher dans les biens.
L'exploration des données à la portée des non-initiés En téléchargeant un module d'extension du tableur Excel développé par 11Ants, les TPE-PME peuvent accéder à des outils d'analyse mathématiques auparavant réservés aux seuls experts. Pour amener les petites et moyennes entreprises (PME) à se servir d'outils de modélisation mathématiques et de prévision statistique, il faut intégrer ceux-ci dans des logiciels qu'elles connaissent. En suivant cette logique, 11Ants propose une solution qui intègre des fonctions de calculs de probabilités et d'analyse prédictive à Excel. "Nous éliminons l'intimidation des non-initiés en intégrant des outils de 'data mining' à un environnement qui leur est familier", explique à L'Atelier Tom Fuyala, l'un des responsables du projet. Plus concrètement, les fonctions introduites correspondent à une série de techniques mathématiques développées par l'université néo-zélandaise de Waikato. Des algorithmes ajoutés aux paramètres Une solution avantageuse pour les petites entreprises
Quatre voies du datajournalism Le datajournalism ou journalisme de données, peut difficilement se résumer à un type de contenus ou à un type de démarche. Il requiert des compétences spécifiques, selon l'usage qui en est fait. J’ai eu l’impression, ces derniers jours, de répéter plusieurs fois la même chose à des personnes différentes (ce qui est un vrai plaisir quand il s’agit de datajournalism). Photo CC par Ian-S sur Flickr Finalement, le datajournalism ou journalisme de données, peut difficilement se résumer à un type de contenus ou à un type de démarche. 1-COMPRÉHENSION : le datajournalism permet de mieux comprendre le monde. Pour cette visualisation des succès au box office américain depuis 1986, l’équipe du nytimes.com a particulièrement travaillé sur la forme des courbes, et leur couleur. Le datajournalism, c’est de la visualisation d’information. Pour faire comprendre une affaire d’espionnage politique à Madrid, elpais.com a mis au point une visualisation animée et interactive.
How much information is there in the world? Think you're overloaded with information? Not even close. A study appearing on Feb. 10 in Science Express, an electronic journal that provides select Science articles ahead of print, calculates the world's total technological capacity -- how much information humankind is able to store, communicate and compute. "We live in a world where economies, political freedom and cultural growth increasingly depend on our technological capabilities," said lead author Martin Hilbert of the USC Annenberg School for Communication & Journalism. So how much information is there in the world? Prepare for some big numbers: Looking at both digital memory and analog devices, the researchers calculate that humankind is able to store at least 295 exabytes of information. Telecommunications grew 28 percent annually, and storage capacity grew 23 percent a year. "These numbers are impressive, but still miniscule compared to the order of magnitude at which nature handles information" Hilbert said.
L’ENJEU DES MÉTADONNÉES MUSICALES La musique n’est pas qu’un fichier son Publié le lundi 4 avril 2011 Article Autrefois, nombre d’informations utiles apparaissaient dans les livrets des CD qui comportaient souvent des photos, éléments de biographie, paroles de chanson, etc. Paradoxalement, le numérique, qui pourrait permettre d’accéder à encore plus d’informations sur les fichiers musicaux — ce qu’on désigne donc comme métadonnées — a souvent tendance à appauvrir leur mise en contexte. Métadonnées Une première raison d’être des métadonnées pour la musique est l’identification des œuvres et de tous ceux qui ont contribué à sa création et à sa production. Au-delà de l’émotion, l’information. Certes, la musique n’a pas besoin de métadonnées pour nous émouvoir. L’intérêt n’est pas forcément de livrer les métadonnées avec le fichier musical puisqu’on peut les rendre accessibles via des bases de données. Avant les réseaux De leur côté, les inventeurs du format MP3 n’ont pas pensé à intégrer dans les fichiers d’autres données que la musique elle-même. Be connected