The Overview Project » How Overview turns Documents into Pictures Overview produces intricate visualizations of large document sets — beautiful, but what do they mean? These visualizations are saying something about the documents, which you can interpret if you know a little about how they’re plotted. There are two visualizations in the current prototype version of Overview, and both are based on document clustering. The first is the items plot, which grew out of the proof-of-concept system we presented a year ago. Every document is a dot. Similar documents get pulled together to form visible groups, that is, clusters. Overview also has a “tree” view. The tree view and the items plot show the same thing, just in different ways. Extracting Key Words All of Overview’s clustering depends on grouping similar documents together, but what does that mean? But Overview doesn’t know any of this. Two documents are similar if they have overlapping sets of key words. Where do those documents go? The tree view finds not only clusters but sub-clusters.
Foursquare Time Machine turns your trips into pretty infographics Given the recent concerns in the media regarding personal privacy, services designed to make your private life more transparent and shareable will likely have to work harder than ever to convince new users to willingly give up their data. Foursquare, a company that has been facing this challenge for years, has just unveiled a new tool that could make the process of sharing your private information a bit more fun. Foursquare Time Machine is a data visualization tool that takes your check-ins and colorfully animates them on an interactive map. Each check-in on the map is represented by a color-coded pulse circle and connected by a line that leads to the next check-in. During the playback of a user's timeline, any one point can be zoomed in on and examined, turning the display from an overhead view to a horizon view, with all your pinpoint check-ins still visible as colorful arches spread across the map. Via Foursquare
Les data en forme Pour cette nouvelle fournée de veille de datajournalisme, nous revenons sur quelques projets qui ont pu nous/vous échapper durant les Jeux olympiques. Comme souvent par ici, nous avons encore mis la main sur des petites perles de cartographie(s), et cette semaine, en bonus, il y a même un zeste de PSG. Oui oui. On commence fort avec le Wall Street Journal, qui dépote désormais de l’application interactive à un rythme soutenu (on l’évoquait la semaine passée) comme le font les éminents Guardian et New York Times. L’application “Murder in America” [en] permet ainsi “d’explorer une base de données interactive des meurtres commis aux États-Unis entre 2000 et 2010″ tout en permettant de raffiner sa requête aisément selon les critères apparaissant dans les comptes rendus rassemblés par le FBI (“race” — au sens où ce mot est utilisé outre-Atlantique —, sexe du meurtrier ou de la victime, circonstances du meurtre, localisation géographique, type d’arme, etc.). Carto par-ci, carto par-là
UTILISER LES « SLICERS POUR DES TABLEAUX DE BORD PERFORMANTS | «Mon Cher Watson par Sophie Marchand Si vous utilisez Excel 2010, vous avez accès à une fonctionnalité intéressante au niveau des graphiques, qui n’est pas présente dans les versions d’Excel antérieures: les "segments" (ou "slicers"). Cet article vous explique comment utiliser les "segments" (ou "slicers") et vous montre un exemple de tableau de bord créé à l’aide de cette fonctionnalité. Utilisez d’abord une base de données et créez un tableau croisé dynamique. Cliquez sur le tableau croisé dynamique et insérez un (ou des graphiques). Cliquez sur le menu "Insérer" et puis sur "Segment" (ou "Slicer" en anglais). Vous allez voir tous les champs de votre base de données apparaître dans une fenêtre: Cochez les champs qui vous intéressent et vous obtiendrez quelque chose comme ça: Vous comprendrez que dans l’exemple ci-dessus, j’ai caché le tableau croisé dynamique et je n’ai fait aucune sélection dans les "segments" (ou "slicers") encore. Finalement, construisez votre tableau de bord à votre guise. Like this:
MALLET homepage MALLET is a Java-based package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text. MALLET includes sophisticated tools for document classification: efficient routines for converting text to “features”, a wide variety of algorithms (including Naïve Bayes, Maximum Entropy, and Decision Trees), and code for evaluating classifier performance using several commonly used metrics. Quick Start / Developer’s Guide In addition to classification, MALLET includes tools for sequence tagging for applications such as named-entity extraction from text. Topic models are useful for analyzing large collections of unlabeled text. Many of the algorithms in MALLET depend on numerical optimization. In addition to sophisticated Machine Learning applications, MALLET includes routines for transforming text documents into numerical representations that can then be processed efficiently.
User-Centered Data Visualization. Part 4 – The Experiment - D3 Visualizing data instead of presenting them as ASCII in lists or tables makes sense because we’re much better in processing graphical than numerical data (the so-called pictorial superiority effect). Also, graphical visualizations are considered to be more attractive. While most people agree on this, there is a war out there between folks saying that data visualizations have to become more attractive and creative because that’s what the market wants and folks that insist that any visualization that is not according to ergonomic standards is a bad visualization. So the question seems to be: are principles of good data visualization timeless or do they go with the zeitgeist? Take pie charts, for example. In my humble opinion, data visualization obeys to the same rules than any other UX design challenge: there are best practices and well-founded generic rules, but what’s best in any specific case depends on the concrete circumstance. We did a little experiment. Alternative 1 Alternative 2
Les data en forme Pour ce 46e épisode et première veille datajournalisme de la rentrée, Owni prend la route avec l'ami Kerouac, se met plein de bulles data dans la tête, plonge dans des océans perpétuels un peu planants et ouvre bien grand les yeux sur ce fichu pétrole, source de tous nos maux passés et à venir. Jack Kerouac a écrit son fameux roman Sur la route en trois semaines sur un rouleau de téléscripteur de 35 mètres de long. D’un trait. La méthodologie est simple : chaque mot du bouquin vaut 0,85 millimètre et chaque nouvelle phrase est célébrée par un virage à droite. Walmart partout, Walmart nulle part On reste chez l’Oncle Sam, en moins poétique, pour la prochaine dataviz qui s’appelle “l’invasion Walmart“, du nom de ce “petit” supermarché étasunien qui superdomine le paysage de superconsommation de l’autre côté de l’Atlantique. Titi et le beau Romney Ouvrons à présent la minute “Elections US” (ça va être data-tendu jusqu’en novembre, autant se le dire). Des bulles des bulles des bulles
10 ressources pour apprendre et progresser en Mindmapping Bonjour à tous, Après une bonne semaine de blackout, je continue sur la thématique du mindmapping, sur laquelle j’ai récemment écrit les deux billets suivants : Voici donc une sélection de 10 ressources intéressantes pour qui veut apprendre, progresser et se maintenir au courant de l’actualité du mindmapping. J’ai essayé de varier les sources pour vous faire découvrir des blogs ou des sites intéressants. Bonne lecture et à bientôt, Vincent 1) Cartes mentales (revue de presse scoop.it) Excellente revue de presse sur l’actualités et les articles sur le mindmapping 2) Slatebox. outilscollaboratifs.com 3) Pourquoi le Mindmapping est-il si efficace pour étudier ? trouvetavoie.wordpress.com 4) 8 outils de mind-mapping Image via Wikipedia made-in-ecommerce.com 5) Dessinez vos idées www.les-infostrateges.com 6) Comment le mind mapping peut stimuler le cerveau de vos enfants www.optimind.be 7) Organisez vos notes avec le Mind Mapping lewebpedagogique.com blog.websourcing.fr 9) Slatebox. eat-tice.ec-nantes.fr
Data Science Toolkit Watch_Dogs WeareData