Scraping for Journalism: A Guide for Collecting Data Photo by Dan Nguyen/ProPublica Our Dollars for Docs news application lets readers search pharmaceutical company payments to doctors. We’ve written a series of how-to guides explaining how we collected the data. Most of the techniques are within the ability of the moderately experienced programmer. The most difficult-to-scrape site was actually a previous Adobe Flash incarnation of Eli Lilly’s disclosure site. Lilly has since released their data in PDF format. These recipes may be most helpful to journalists who are trying to learn programming and already know the basics. If you are a complete novice and have no short-term plan to learn how to code, it may still be worth your time to find out about what it takes to gather data by scraping web sites -- so you know what you’re asking for if you end up hiring someone to do the technical work for you. The tools With the exception of Adobe Acrobat Pro, all of the tools we discuss in these guides are free and open-source. A Guide to the Guides
Du rôle prédictif des données à la gouvernementalité algorithmique Sur Place de la Toile, le 12 décembre dernier, Xavier de la Porte recevait Guillaume Main, consultant et statisticien, qui s’occupe du site Statosphère ; Erick Alphonse, maître de conférences au Laboratoire d’Informatique de Paris-Nord (LIPN) et responsable d’Idaaas, une société qui construit des modèles prédictifs, notamment via PredictiveDB, un logiciel prédictif et Antoinette Rouvroy, chercheuse au Fonds national de la Recherche scientifique, qui travaille sur les formes de pouvoir induites par l’usage des données. Réécouter l’émission en ligne, ou parcourez le transcript augmenté de liens. Il y a de multiples formes de données, rappelle en préambule Xavier de la Porte : données sociales, messages, commentaires, celles qu’on publie chez les autres ou que les autres publient sur soi. Il y a bien sûr les données comportementales : celles qui mesurent ce que vous faites sur l’internet, les données géographiques, les données publiques, les données privées. Erick Alphonse : Oui.
Open Data: Paris place ses données publiques sous licence ODbL Les données publiques ouvertes (non, il ne s'agit pas de WikiLeaks :-)), on en parle dans le monde, des gouvernements ont créé des portails vers leurs données ouvertes comme aux Etats-Unis (data.gov) ou en Grande-Bretagne (data.gov.uk). Et en France? Ça avance au moins localement, puisque ce mardi le Conseil de Paris a voté une délibération (PDF) approuvant «la licence Open Data relative à la diffusion par la ville de Paris des données publiques en sa possession». L'Hôtel de ville de Paris, image de Benh Lieu Song (sur Wikipédia), sous licence Creative Commons by-sa Le principe en avait été validé lors du conseil de Paris des 7 et 8 juin 2010. il prépare les contrats de licence types adaptés à chaque catégorie de données et à leurs finalités en veillant à garantir, pour l’ensemble des données diffusées, les principes d’accès libre et non discriminatoire de réutilisation et de rediffusion des données pour tout usage non commercial.» Libre accès seulement ou libre usage? A suivre! Sur la Toile
Quand nos requêtes aident à tracer les évolutions de la grippe Par Hubert Guillaud le 20/11/08 | 3 commentaires | 4,281 lectures | Impression Google vient de dévoiler un outil expérimental, baptisé Google Flu Trends, capable de tracer l’intensité et l’étendu des fluctuations de la grippe à travers les Etats-Unis, simplement en observant les requêtes sur ce sujet des utilisateurs de son moteur de recherche. Google Flu Trends s’appuie sur un constat simple : avant d’aller chez le docteur, nombre d’internautes ont tendance à chercher des informations sur les symptômes qu’ils ressentent. D’autres systèmes existent encore comme HealthMap, qui permet de cartographier des informations de santé pour montrer comment se répandent des maladies. Mais il n’y a pas que la grippe dont on peut prédire l’impact en regardant le comportement des internautes.
Big Data : faire du sens à grande échelle » Article » OWNI, Digital Journalism Après l'open-data la nouvelle tendance tout droit venue des US sera-t-elle le « big data » ? D’un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique. En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. Ces données ne sont pas toutes des œuvres. Naviguer dans ce nouveau web demande une nouvelle science. Qu’est-ce qui change avec les big data ? L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. On sent bien que l’on est tout près d’un phénomène d’émergence. Les outils sont-ils prêts ? Ce qui est fascinant avec la Silicon Valley, c’est qu’une telle perspective y devient immédiatement un carburant pour la recherche et la création. Il commence à avoir des résultats concrets.
The Good, the Sad and the Nerdy « Stop. Datatime. I do hope that most of you have paid attention to the first British election debate held last week on national television. The leaders of the three main parties were invited to discuss questions asked by a sample of British citizens and selected beforehand by broadcasters. A fortnight before the main event, a set of 76 detailed rules were announced, to prevent from any kind of uneven treatment. Many issues were addressed in this first electoral debate : Education, Immigration, Law and Order, NHS, Family, Defence… The full house, pretty much. Mark my words:who will best tackle the data issue? Gordon Brown, if not the coolest-looking lad in town, was actually the first one to embrace the data gathering process. The project follows the footsteps of Where Does My Money Go, an interactive visualization tool based on data retrieved from the HM Treasury in late 2009. Da-tax heaven : “Where Does My Money Go ?” Labour Manifesto : View here the Manifesto set by Gordon Brown for this General Election.
Web-mining.fr Ce que cache le débat sur le journalisme de données La thématique du « journalisme de données » suscite des échanges de points de vue très intéressants et très opposés. Une sorte de querelle des anciens et des modernes, illustrée par ce récent billet de Cécile, étudiante à l’école de journalisme de Columbia (elle, c’est la moderne, ce qui ne lui donne pas automatiquement raison) et ce post de Jean-Christophe Féraud, journaliste aux Echos (lui, c’est l’ancien, et il n’a pas forcément tort). Données ou idées ? Les Français n’aiment pas les faits Pourquoi les Français s’écharpent-ils sur l’intérêt de recourir aux données chiffrées, à leur traitement et à leur mise en forme interactive, tandis que les anglo-saxons l’utilisent déjà (j’ai déjà parlé ici de l’enquête sur les infirmières californiennes)? Réponse : les journalistes français n’aiment pas les faits. François Dufour l’exprime parfaitement dans son ouvrage « Les journalistes français sont-ils si mauvais? Le style d’Albert Londres non merci ! Reprenons ces deux exemples. Albert Londres?
Data Mining Vs. Semantic Web This tutorial covers the field of datamining in general, talks about its possible applications (special case studies can be added on request), and elaborates on the issue of hardware accelerators for datamining. The introduction gives a formal and an informal definition (through an example), plus it points to possible missunderstandings typical of the topic. The part on methods and algorithms covers a number of different approaches, each one presented thru animation, using the examples that are both colourfull and unusual, but excellent for pointing into the essence. The part on tools lists about a dozen different tools, and selects one for a detailed case study. The part on applications includes examples from a variety of different fields (engineering, science, medicine, psychiatry, etc...) Would you like to put a link to this lecture on your homepage?
How Journalists are Using Social Media for Real Results The Real Results series is supported by Gist, an online service that helps you build stronger relationships. By connecting your inbox to the web, you get business-critical information about key people and companies. See how it works here. Journalists are, by nature, crafty folk who are wonderfully adept at stalking — I mean, finding sources and relevant information for various and sundry stories. Still, as the Internet continues to expand, it can be difficult to pick and choose which tools are right for you as a journalist — it can be daunting to litter one's desktop with Twitter applications, social networks, location-based tools and blogs. Still, if one can manage to circumvent the information overload and pick and choose which tools are most effective for which purposes, social media can be an extremely effective. Mashable spoke with an array of journalists and industry folks to see how they're using social media in their day-to-day work. Finding Leads, Noticing Trends Finding Sources
Quatre voies du datajournalism J’ai eu l’impression, ces derniers jours, de répéter plusieurs fois la même chose à des personnes différentes. (Ce qui est un vrai plaisir quand il s’agit de datajournalism). D’où l’idée d’articuler ici ces quelques éléments récurrents. Finalement, le datajournalism ou journalisme de données, peut difficilement se résumer à un type de contenu ou à un type de démarche. J’ai identifié quatre dimensions, et pour chacune les compétences nécessaires à sa mise en œuvre : 1-Compréhension : Le datajournalism permet de mieux comprendre le monde. Pour cette visualisation des succès au box office américain depuis 1986, l’équipe du nytimes.com a particulièrement travaillé sur la forme des courbes, et leur couleur. Le datajournalism, c’est de la visualisation d’information. Le datajournalism fait ici appel aux compétences des graphistes et aux connaissances en sémiotique visuelle ou en sémiologie graphique : pour que chaque forme et chaque couleur fasse sens instantanément. Like this: J'aime chargement…
Introduction to Linked Open Data for Visualization Creators on Datavisualization Introduction to Linked Open Data for Visualization Creators Last week ReadWriteWeb asked: “Is Linked Data Gaining Acceptance?” Our answer: definitely yes. Projects like DBPedia, a community effort to structure the information from Wikipedia and provide it as Linked Open Data, have come a long way and work really well. For example, you can search for all scientists born in Zürich, Switzerland. But you don’t have to stop there! Back in 2001 Tim Berners-Lee and his collaborators published a seminal article called “The Semantic Web” in which they presented their idea of “a new form of Web content that is meaningful to computers [and] will unleash a revolution of new possibilities”. First up is the term Semantic Web. One technological concept that is part of the Semantic Web vision is Linked Data, which describes “a method of publishing structured data, so that it can be interlinked and become more useful” (Wikipedia). The Value for Visualization Creators