Destination web sémantique Travaillant actuellement sur un projet de gestion sémantique de l’information, je me suis rendu compte que peu de personnes savent exactement de quoi il s’agit et que même les experts ne sont pas forcement d’accords sur la définition de cette discipline. Web sémantique & enrichissement sémantique Il faut d’abord bien faire la différence entre la notion de web sémantique et celle d’enrichissement sémantique de l’information. Le web sémantique est une évolution coordonnée du web (lancée entre autre par le W3C), une initiative collective dans laquelle chacun à son niveau travaille pour rendre les contenus web plus intelligibles, plus accessibles par les programmes et les machines.L’enrichissement sémantique de l’information est une méthode de travail consistant à donner du sens aux fichiers/informations afin qu’elles soient traitées plus intelligemment par les machines et les applications. L’enrichissement sémantique est une étape vers le web sémantique. L’enrichissement sémantique de l’info
Sparql : premier pas (installation de l ’outil) Petit préambule Premier billet d’une série que j’espère longue, visant à une petite autoformation personnelle de moi-même pour l’utilisation de SPARQL. Sparql, c’est le langage permettant d’interroger des bases exposant leurs données selon les préconisations du linked data. Grosso modo, je sais à quoi ressemblent des triplets (qu’ils soient sous forme de turtles, RDFa ou RDF/XML). Je suis loin d’avoir des projets précis sur l’utilisation, par exemple pour notre opac, de sources de données structurées en linked data. J’arrive à exploiter des API non pas pour des web services, mais pour des usages "perso" (càd des manipulations de données sur mon poste, le plus souvent à usage professionnel tout de même), parce que je maîtrise XSL. Pour SPARQL, il faut que ce soit pareil : commencer en utilisant ce langage pour des besoins très limités, voire complètement fictifs, afin d’avancer peu à peu. Je ne doute pas d’être à l’occasion ridicule pour ceux qui sont bien plus avancés. Tutoriel Outil
Petite histoire du Web sémantique J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie. Il s'agit d'une introduction générale en trois parties dont ce billet est la première : Si le Web sémantique commence à être médiatisé aujourd'hui, ses fondements sont plus anciens, ils remontent aux origines même du Web et ont connu plusieurs évolutions dont l'histoire permet de mieux appréhender les enjeux. Diapo de la présentation de Tim Berners-Lee à WWW94 Le premier « Layer cake »
Cours d'informatique pour littéraires Voici quelques documentations et fichiers d'exemples destinés à des personnes de culture littéraire, et sans connaissances de programmation. Ces cours sont censés aider les personnes motivées par Linux ou Unix, Perl, LaTeX (et les formats bibliographiques associés), mais rebutées par les documentations existantes. Leur fonction principale est de mettre en confiance les personnes de bonne volonté, et de leur permettre de réaliser en quelques heures des programmes Perl complets (orientés lexicométrie) et des documents LaTeX de qualité. La documentation Linux est volontairement très légère, juste suffisante pour apprivoiser ce système d'exploitation, son ancètre Unix et son dérivé Mac. Suivant les situations, ces documentations sont proposées aux formats pdf ou html, et parfois le source est aussi publié: façon de se familiariser avec LaTeX ou Perl... Les fichiers au format html ont été produits avec le logiciel tth, mais son résultat nécessite malgré tout un petit toilettage.
Le web sémantique pour l'amélioration du moteur de recherche Google Le Web sémantique est l'étude du sens et de la forme du langage par des métadonnées. Selon le Wall Street Journal, Google apporterait dans les semaines qui viennent un important changement de son algorithme prenant plus en compte le Web sémantique. Aujourd'hui, l'algorithme de Google tente de déterminer l'importance d'un site web en fonction des mots que le site contient et du nombre de liens pointant vers celui-ci. Pour comprendre le système du Web sémantique, prenons un exemple :En partant de l'idée qu'un internaute fasse une recherche sur "le contrôle des médias en Iran" nous recherchons la sémantique de ces mots :Média = radio, télévision, internet, ...Contrôle = maîtrise, censure,...Iran = Téhéran, La sémantique permettrait de faire ressortir la même page dans les résultats de recherche avec la requête "censure de la radio à Téhéran" Grâce au Web sémantique les résultats du moteur seront plus pertinents, plus « intelligents » et ce système pourrait affecter des millions de sites.
SharedCanvas HDA-Lab : expérimenter le tagging sémantique Une expérimentation sur des données du site Histoiredesarts.culture.fr Le site histoiredesarts.culture.fr recense 5000 ressources éducatives en ligne produites par 350 institutions culturelles. Cet annuaire, mis en œuvre en septembre 2010, a pour vocation d’aider la communauté éducative (enseignants, médiateurs culturels…) à trouver des documents fiables dans le domaine de l’histoire des arts. Il s’inscrit dans le dispositif développé par le ministère de la Culture et de la Communication (MCC) pour soutenir le programme d’enseignement de l’histoire des arts de l’Education Nationale. Un workflow d’édition des notices du site est en cours d’intégration dans le système d’information du MCC (projet « HDABO »). Cet outil, qui remplacera l’actuelle base de données centralisée, permettra aux 350 contributeurs institutionnels, de créer et mettre à jour leurs notices via une interface Web dédiée. L’intérêt et les limites des tags Web 2.0 Les tags « sémantiques » Exemple :
The DM Project The DM project is pleased to announce that it has been awarded a Digital Humanities Implementation Grant for 2013-14 by the National Endowment for the Humanities. This grant will fund our current developmental goals (listed below), help continue our work with our partner projects, and launch the Virtual Mappa project with the British Library. Overview DM is an environment for the study and annotation of images and texts. In this phase of development, we are collaborating with several use cases in the humanities. DM at its most basic is a tool for linking media. DM also allows users to export the linked data they create for database use. For a view of new DM features in development for working with multiple manuscript repositories in the same workspace, watch this: The video below showcases DM's core functionality for creating targeted annotations and links. Use Cases See the second video (the last few minutes) and images below for examples of the DM in several use cases. Funding History
Le web sémantique ou le futur du Web « un blog, des blogs L’expression « Web sémantique » a été utilisée la première fois en 1994 par Tim Berners-Lee, l’inventeur du World Wide Web et directeur du World Wide Web Consortium (« W3C »), qui supervise le développement des technologies communes du Web sémantique. En 1999, Tim Berners-Lee a exprimé la vision du Web sémantique comme suit : « J’ai fait un rêve pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les données sur le Web — le contenu, liens, et les transactions entre les personnes et les ordinateurs. Un « Web Sémantique », qui devrait rendre cela possible, n’a pas encore émergé, mais quand ce sera fait, les mécanismes plan-plan d’échange, de bureaucratie et de nos vies quotidiennes seront traités par des machines dialoguant avec d’autres machines. Le « Layer cake » de Tim Berners-Lee D’un web orienté « document », nous évoluons donc vers un web qui a du « sens ». (Source : L’E-Réputation à l’heure de la surcharge informationnelle, par Eglantine Schimtt) J'aime :
La pertinence des algorithmes Sur l’excellent Culture Digitally, le sociologue Tarleton Gillespie (@TarletonG) vient de publier un court essai (.pdf) sur la « pertinence des algorithmes » pour réfléchir à la place des algorithmes dans la culture et la connaissance (cet essai se veut l’introduction d’une anthologie sur le sujet qui devrait paraître… à l’automne 2013 aux presses du MIT). Tarleton Gillespie s’est longuement intéressé à comment les plates-formes utilisent les algorithmes pour gérer les « mauvais contenus » (voir « ces algorithmes qui nous gouvernent ») ce qui lui a permis de dresser le tableau des techniques algorithmiques émergentes en cours de déploiement. Une manière d’approfondir les propos d’Evgeny Morozov dont nous vous faisions part récemment. Qu’est-ce qu’un algorithme ? « Les algorithmes jouent un rôle de plus en plus important dans le choix de l’information que nous considérons comme la plus pertinente pour nous. Comment appréhender les conséquences des algorithmes ? Hubert Guillaud