Linked Data : prémisses et promesses d’un futur incertain

En octobre 2016, se tenait à Montréal le Sommet canadien sur les données liées / Canadian Linked Data Summit [1]. L’évènement a été piloté par sept établissements : Université McGill, Université de Montréal, Université d’Alberta, Université de Toronto, Université de la Colombie Britannique, Bibliothèque et Archives Canada, Bibliothèque et Archives nationales du Québec. Il s’inscrivait dans la lignée d’une initiative plus large, mise en branle en 2014: le forum annuel sur les données ouvertes liées dans les bibliothèques, les archives et les musées (LODLAM).

Le sommet a été, d’un côté, l’occasion de partager des pratiques expérimentales, de l’autre, un cadre de réflexion, un incubateur d’idées. Il a mis de l’avant les opportunités du web de données, et ce dans le but, selon toute vraisemblance, de susciter une prise de conscience et de mousser l’intérêt des participants à l’égard du flux informationnel.

Principes fondamentaux des données liées

Les Linked Data (LD) se définissent comme pratique subséquente du web sémantique et comprennent un ensemble de standards et de technologies destinés à mettre en relation des données structurées selon un modèle conceptuel à trois composants (triplets) : sujet – prédicat – objet.

Dans cette syntaxe, l’objet et le sujet représentent des entités ou des ressources, alors que le prédicat a le rôle de « typer les liens entre les données, c’est-à-dire de qualifier la nature de la relation qui relie deux ressources » (Bermès, 2013, p. 40). La logique sémantique veut que les entités soient préférablement identifiées par des URIs[2], mais elles se traduisent à l’occasion en une chaîne de caractères (littéral).

La même entité (personne, lieu, date, etc.) peut être sujet, objet ou prédicat dans plusieurs triplets; l’ensemble des triplets partageant les mêmes URIs forme un graphe. Les URIs, fournis par des référentiels ou vocabulaires contrôlés, occupent donc une place centrale dans le Web de données.

La mise en place d’un projet LD comprend trois étapes :

  • identification des données à traiter (documents, personnes, annuaires, etc.);
  • alignement entre deux jeux de données (établir des correspondances);
  • modélisation des données selon un référentiel qui corresponde à la nature de ces données (ex. FRBR pour les documents, VIVO, ORCID, VIAF[3], FOAF[4], ISNI pour les identités des personnes ou des collectivités, GeoNames pour les lieux géographiques, etc.)[5].

Certaines classes ont des équivalents dans plusieurs ontologies; leur rôle est de réconcilier les référentiels dans la description des entités de la même nature.

L’objectif ultime de ces technologies est de créer « un espace global d’information, où les données sont décrites suivant un modèle commun, le modèle RDF, et reliées par des liens actifs, exploitables par des machines »[6].

Les premières initiatives LD se profilent au début des années 2010 lorsque des données publiques formalisées selon la norme RDF sont publiées : c’est le cas de DBpedia, Freebase, ou encore WikiData.

Quelles pratiques et quels outils dans les bibliothèques?

Puisque le plaidoyer en faveur des données liées que Tim Berners-Lee lance en 2006[7] ne fait réagir que modestement les milieux documentaires, le consortium W3C créé en 2011 un groupe de travail appelé à faire des recommandations à l’intention des bibliothèques (Library Linked Data ou LLD XG).

Les bibliothèques nationales s’empressent, cette fois, d’ouvrir leur triplestores à la communauté web. En Europe, la BnF (data.bnf.fr)[8], la DNB (bibliothèque nationale d’Allemagne), la bibliothèque nationale suédoise et la British Library passent en mode sémantique; Europeana rend ses données disponibles en JSON et en RDF dès 2011. En Amérique du Nord, la Library of Congress (LoC) utilise la plateforme MarcLogic pour développer une nouvelle norme d’encodage, compatible avec RDA et FRBR, mais qui se prête à une interopérabilité plus large, au-delà du cadre strict des bibliothèques. Il s’agit de BIBFRAME (Bibliographic Framework) que la National Library of Medecine (É.-U.) accepte de mettre à l’épreuve dès le 2013. Or, la NLM décidait quelques mois plus tard d’abandonner ce projet et de créer sa propre ontologie, modulée selon les particularités de son domaine. Des questionnements se dressent alors à l’endroit de Bibframe et sa structure des métadonnées.

Les bibliothèques universitaires, quant à elles, ne semblent pas particulièrement réceptives aux technologies associées au Web de données. Selon Jeff Mixter, ingénieur logiciel chez OCLC, l’explication réside au fait que la norme RDF et les données liées sont relativement nouvelles: « peu de systèmes publient des données liées [et encore moins] de systèmes utilisent des données liées déjà publiées ». On n’hésite pas à évoquer un certain conservatisme : selon Mixter, les bibliothèques préfèrent « utiliser des formats de données éprouvés », alors même que « la valeur des données liées n’a pas été clairement déterminée et n’a pas encore fait ses preuves ». Le chargé de projet chez OCLC a présenté deux prototypes développés pour une transition vers le format RDF : Entity JS et Person Lookup Service (entités de personnes), un référentiel multilingue (15 langues) qui contient des URIs vers des jeux de données tels Bibliothèque et Archives Canada, DNB (bibliothèque nationale allemande), BnF, WikiData.

J. Suhonos, bibliothécaire à l’Université Ryerson, a également insisté sur le décalage entre le Web moderne et le monde des bibliothèques: actuellement des consommatrices passives, les bibliothèques devraient agir en développeurs actifs des technologies Web. Cette mutation ne saurait se réaliser sans un engagement tangible et concerté de la part de tous les acteurs. Les bibliothèques devraient ainsi se départir de leur « culture d’inaction » et de leur attachement envers les modèles d’affaires classiques et s’investir dans des projets novateurs, capables de leur assurer en retour une indépendance technologique[9].

Les projets en place dans les universités canadiennes sont, à la lumière du sommet sur les données liées, de nature exploratoire; leur but est de familiariser le personnel spécialisé en traitement de métadonnées avec les alternatives au format MARC et avec les défis d’une éventuelle migration vers XML/RDF. En voici une synthèse[10]:

  • l’Université de Montréal a créé des autorités enrichies avec MARCNext pour ses directeurs de recherche; à cet effet, on a procédé à une extraction de noms du dépôt institutionnel Papyrus et à l’insertion des identifiants LC et VIAF;
  • l’Université de l’Alberta a, elle aussi, utilisé des fiches bibliographiques existantes pour intégrer et valider des concepts sémantiques (URI, SPARQL, RDF);
  • l’Université McGill a partagé ses impressions sur OpenRefine, un outil de la suite MarcEdit qui permet la visualisation cartographique des métadonnées.
  • l’Université de Toronto a testé RIMMF (RDA in Many Metadata Formats) pour la création de R-balls, voire des collections de métadonnées formatées en RDA autour d’une entité (personne, ouvrage, manifestation) – ex. Jane-athon ou Marg-athon[11].

Les imperfections du web sémantique

Quand bien même prometteur, l’écosystème du web sémantique présente un certain nombre de faiblesses.

Premièrement, les données liées ne sont pas implicitement des données ouvertes et vice-versa. Dans la majorité des cas, les données sont encore préservées dans des silos indépendants: (« the data is burried in a zip archive… »[12]). À  l’inverse, des  organisations gouvernementales, éducatives et/ou culturelles sont prêtes à enrichir leurs données par des emprunts, sans nécessairement ouvrir leur propre fonds au partage (voir le cas de l’ISSN[13]).

Pour que les données soient libres, il faut qu’elles soient agrémentées d’une licence libre (ex. Creative Commons)[14]. Cette contrainte légale explique pourquoi les projets déployés ou en développement mobilisent prioritairement des collections patrimoniales ou bien des fonds issus de la recherche institutionnelle. Néanmoins, certains jeux de données sont aujourd’hui mis à la disposition sans aucune information de licence[15].

La multiplication des ontologies occasionne de la confusion quant au choix du vocabulaire.  LOV (Linked Open Vocabularies) répertorie plus de 475 vocabulaires, alors que la base de données prefix.cc en énumère près de 1 500[16]; cette prolifération n’est pas sans susciter du recul. Les remarques de Robert Warren[17] jettent la lumière sur la qualité de ces référentiels: les ontologies existantes sur le web ne sont pas nécessairement des vocabulaires contrôlés[18], et même lorsque c’est bien le cas, leur fiabilité demeure questionnable (voir le cas de l’ontologie FBI des apparences).

Chaque milieu tâche dès lors de se doter de ses propres vocabulaires : les musées, les archives, les bibliothèques, les médias (ex. la BBC). Parfois, on récupère des modèles ouverts comme Dublin Core, SKOS ou FOAF, pour bâtir des systèmes et formats propriétaires – c’est le cas de New York Times, de la NASA, d’OCLC, de l’ABES, etc.

L’absence d’un fichier d’autorités international a entraîné de la redondance entre les bibliothèques nationales. La création de VIAF a tenté de palier à cette carence, mais ce répertoire a finalement la réputation d’être un agrégateur des fichiers produits par les bibliothèques plutôt qu’un référentiel-source pour ces dernières. En plus de FOAF et d’ISNI (identifiants créés par l’ISO pour les identités publiques des personnes ou des collectivités), VIAF intègre dans sa version RDF des liens vers DBpedia[19]. Et il n’est pas le premier à chercher des ancrages dans la variante sémantique de l’encyclopédie collaborative. L’éditeur Nature Publishing[20], en quête d’une meilleure visibilité sur les moteurs de recherche, débute ses tests en 2012. Plus récemment, Springer-Nature[21] et PLOS[22] annonçaient de nouvelles plateformes où les métadonnées de leurs publications respectives seront enrichies par un appariement avec DBpedia!

À défaut des données structurées qui serviraient de point d’ancrage, il semble que les adeptes du Web sémantique se seraient résignés à l’usage du crowdsourcing. Au risque d’un lourd travail de vérification et de nettoyage des données, les responsables des collections spéciales puisent des données dans Wikipédia ou dans Wikidata : l’université York l’a fait pour sa collection musicale[23].

Constats et pistes de réflexion

  1. Le web de données est l’évolution naturelle et convergente du web documentaire et du web social. Les catalogues ne pourront se soustraire longtemps à ce continuum numérique, affranchi des barrières entre métadonnées et contenu. D’ailleurs, les fournisseurs des systèmes de gestion documentaires s’apprêtent à faire le passage vers des technologies et standards d’interopérabilité (voir la présentation d’ExLibris[24]).
  2. Les données liées présentent des avantages incontestables pour les bibliothèques universitaires: la visibilité des ressources (publications et créateurs) et l’autonomie par rapport aux supports sont les retombées les plus importantes. Vu sous le prisme de nos chercheurs, le futur catalogue paraitra comme un point unique d’accès vers un graphe de connaissances explorable de manière intuitive; la quête d’information, aujourd’hui fragmentaire, deviendra fluide et indépendante de l’interface. En imbriquant des identifiants ou des listes d’autorités (de chercheurs, d’institutions, d’organismes de subvention, etc.), il promet également de supporter ce que j’appellerais un web socio-académique.
  3. Un sentiment d’incertitude a dominé le forum sur les données liées, ce qui n’est guère surprenant si l’on considère la nature exploratoire des projets LD ayant cours (startup phase[25]) et la complexité technique et opérationnelle de tels projets. On y a exprimé ouvertement des réticences face à un changement si radical qui s’annonce énergivore et coûteux. À la lumière de cet état d’esprit, la transition vers le web de données m’apparaît comme un passage graduel et réfléchi, parsemé de séances d’(in)formation et d’un accompagnement soutenu.
  4. L’ampleur des mécanismes LD pour les bibliothèques et les implications juridiques de l’exposition des contenus sur le Web rendent compte des limitations pratiques. Les initiatives présentées au sommet sur les données liées ont mis en évidence un intérêt marqué pour la modélisation orientée objet des collections patrimoniales, ainsi que des répertoires de publications institutionnelles. De façon plus générale, toute pratique éditoriale numérique qui s’inscrit dans le modèle Open Access redoublera de visibilité grâce au flux d’information normalisé.
  5. L’impact des LD dépassera largement les intervenants spécialisés en métadonnées (services techniques). Les connexions sémantiques, la découverte contextuelle, la visualisation des données, vont réclamer de nouvelles compétences, une nouvelle littéracie.

___________________________

[1] Le programme ainsi que les fichiers des présentations sont disponibles à l’adresse : https://www.mcgill.ca/clds/fr/programme.

[2] Uniform Resource Identifier

[3] Virtual International Authority File = fichier d’autorité international virtuel, initiative de la Library of Congress, de OCLC, la BnF et de la Deutsche Nationalbibliothek. Certains le considère simplement un agrégateur puisque son rôle est  de fusionner des fichiers d’autorités provenant des bibliothèques nationales.

[4] Friend Of A Friend

[5] L’accès aux données se fait via une requête SPARQL sur le point d’accès (sparql endpoint).

[6] Bermès, E. (2013). Le Web sémantique en bibliothèque. Paris : Éditions du Cercle de la Librairie. p. 4

[7] Berners-Lee, T. (2007). Linked Data. En ligne: https://www.w3.org/DesignIssues/LinkedData.html

[8] Voir la présentation d’Étienne Cavalie au somment des données liées.

[9] Suhonos, M. J. (Ryerson University). (2016, 24 octobre). Linked Data in Canada: Behind the Curve.

[10] Les présentations respectives ont eu lieu le 25 octobre dans le cadre de l’Atelier 3; documentation en français et en anglais.

[11] Tutoriels en ligne : http://www.marcofquality.com/wiki/rimmf3/doku.php?id=examples

[12] Berners-Lee, T. (2007). Linked Data. En ligne: https://www.w3.org/DesignIssues/LinkedData.html

[13] Cocaud, S. (2016, 28 septembre). ISSN: open and not open linked data.

[14] Les exemples les plus notoires dans la sphère académique sont la collection patrimoniale digitale OPENN de l’université de Pennsylvanie et Special Collections Image Bank de l’Université Michigan – voir Mitchell, E. T. (2016). Library Linked Data: Early Activity and Development, Library Technology Reports, 52(1).

[15] Bermès, 2013, p. 57

[16] Warren. R. (2015, 24 mars). Reusing LOD Vocabularies: It’s not all it’s cracked up to be.

[17] Warren, R. (University Concordia). (2016, 24 octobre). Operationalizing Linked Open Data.

[18] Les ontologies mentionnées ici ne sont pas des taxonomies dans le sens traditionnel du terme, mais des outils de modélisation des métadonnées et, par ceci même, des passerelles entre différents jeux de données.

[19] http://wiki.dbpedia.org/

[20] Voir http://www.nature.com/ontologies/

[21] Cocaud, S. (2016, 22 septembre). Scigraph.com: future plateforme linked data de Springer-Nature.

[22] Drysdale, R. & Kasenchak, B. (2015, 10 novembre). PLOS and DBpedia – an experiment towards Linked Data.

[23] Voir la présentation de Stacy Allison-Cassin, Nuage de données liées, patrimoine culturel et contexte canadien.

[24] Hall, T. (2016, 24 octobre). ExLibris discoveries with linked data.

[25] Mitchell, 2016, p. 6

Advertisements

About E. Chiriac

Bibliothécaire à l'Université du Québec en Outaouais (art, informatique et sciences comptables); centres d'intérêt: bande dessinée québécoise, droit d'auteur et rédaction scientifique.

No comments yet... Be the first to leave a reply!

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :