Les métadonnées sémantiques : RDF, RDFa et les microdata

Définis en tant que standard par le W3C dans le cadre de ses travaux sur le web sémantique, RDF, RDFa et les microdata répondent à une logique « sujet, prédicat, objet ». Ces formats permettent l’introduction dans les métadonnées d’une sémantique que différents logiciels vont exploiter et réutiliser.

Le W3C (World Wide Web Consortium) débute dès 1994 ses travaux sur le Web sémantique ou Web des données. Il s’agit d’un projet à long terme visant à répertorier de manière fine les connaissances stockées dans les pages du web afin de permettre une recherche plus précise et une réutilisation dans d’autres applications. Les langages sémantiques RDF, RDFa et les microdata (microdonnées) sont successivement spécifiés. Implémentés dans les logiciels des bibliothèques, des éditeurs, des centres d’archivage et des musées, mais aussi dans les gestionnaires de contenu, ils peuvent servir pour les échanges de métadonnées entre logiciels ou servir aux moteurs de recherche. C’est ce qu’on appelle l’interopérabilité.

Semantic Web – W3C : http://www.w3.org/standards/semanticweb/
Introduction au web sémantique : http://jplu.developpez.com/tutoriels/web-semantique/introduction/
Structured Data for Author Pages and Linked Snippets, 2013 : http://www.seoskeptic.com/structured-data-for-author-pages-and-linked-snippets/
À quoi sert le web sémantique, en Histoire et Philosophie des Sciences et des Techniques ? : http://semhpst.hypotheses.org/17

RDF (Resource Description Framework)

Le langage pilier du web sémantique RDF est publié sous forme de recommandation en 1999. Une deuxième version paraît en 2004. Le langage permet la description des ressources du web à l’aide d’assertions (ou statements) constituées d’un triplet comprenant un sujet, un prédicat et un objet. Le sujet identifie la ressource à décrire, le prédicat indique un aspect particulier du sujet et l’objet précise la valeur du prédicat. Dans l’assertion « Jacques habite Amance », « Jacques » est le sujet, « habite » est le prédicat et « Amance » est l’objet. Sujets et objets doivent être identifiés de manière permanente et unique avec un identifiant du type URI (Uniform Ressource Identifier) ou URL (Uniform Ressource Locator). RDF est un langage puissant de description des données qui permet la création d’inférences. Plusieurs assertions peuvent par exemple être combinées pour en déduire de nouvelles. Si on ajoute à l’exemple précédent l’assertion « Amance est en Meurthe et Moselle », on réalise l’inférence « Jacques habite en Meurthe et Moselle ».

Une assertion peut être représentée à l’aide d’un graphe dans lequel sujet et objet sont les noeuds et le prédicat est la flèche. L’exemple suivant représente l’assertion : La page html  http://www.example.org/index.html a été créée, au sens « creator » de Dublin Core, par la personne identifiée par l’URL http://www.example.org/staffid/85740. Sujets, prédicats et objets sont identifiés sur le web par un URL qui donne des renseignements complémentaires sur le contexte d’utilisation.

Une représentation équivalente de RDF en XML est la suivante :

<?xml version="1.0"?>
<!-- Déclaration des espaces de nom RDF et Dublin Core-->
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
 xmlns:dc="http://purl.org/dc/elements/1.1/">
 <!-- Description de l’objet identifié par son URL -->
 <rdf:Description rdf:about="http://www.example.org/index.html">
  <!-- L’auteur est identifié par une URL -->
  <dc:creator rdf:resource="http://www.example.org/staffid/85740"/>
 </rdf:Description>
</rdf:RDF>

RDF peut être étendu à l’aide des schémas, ontologies ou vocabulaires Dublin Core ou FOAF (Friend Of A Friend) pour décrire les personnes par exemple. Les langages du web sémantique  RDFS (RDF Schema), OWL (Web Ontology Language), SKOS (Simple Knowledge Organisation System) sont aussi basés sur RDF.

Des recommandation voient le jour, visant à utiliser RDF pour décrire les objets des bibliothèques, des archives, des musées et de la recherche. Suite à des travaux s’étendant de 1991 à 1997, l’IFLA (International Federation of Library Associations and Institutions) publie en 1998  Functional Requirements for Bibliographic Records (FRBR) – Spécifications fonctionnelles des notices bibliographiques. Il s’agit d’un modèle théorique visant à décrire les informations des notices bibliographiques des bibliothèques, renseignées lors du catalogage.

Normalisé ISO 21127, The CIDOC conceptual reference model est publié en 2006 par le CIDOC (Comité International pour la DOCumentation), un organisme international œuvrant dans le domaine de la documentation muséale. Il définit une ontologie RDF pour les bibliothèques, les archives et les musées. Des travaux ultérieurs du CIDOC visant à faire converger le modèle de référence conceptuel avec le FRBR aboutissent à l’ontologie FRBR-object oriented ou FRBRoo approuvée par L’IFLA en 2008.

RDF : www.w3.org/RDF/ , http://www.w3.org/TR/rdf-primer/
Functional Requirements for Bibliographic Records :
http://www.ifla.org/publications/functional-requirements-for-bibliographic-records
The CIDOC Conceptual Reference Model : http://www.cidoc-crm.org/
FRBRoo Introduction : http://www.cidoc-crm.org/frbr_inro.html

RDFa (Ressource Description Framework in attributes) 

Mais pour une reconnaissance par les moteurs de recherche du web, l’intégration des informations sémantiques au code HTML peut paraitre plus aisé. Publié en 2008, RDFa (Ressource Description Framework in attributes) propose l’incorporation des données sémantiques dans les balises des documents XML, XHTML ou HTML5. RDFa définit un ensemble d’attributs (rel, rev, content, href, src, about, property, resource, datatype, typeof) qui permettent de qualifier les éléments de la page. Le format permet aussi de spécifier les ontologies ou vocabulaires utilisés et les espaces de noms.

Exemple de document RDFa 1.0 et XHTML étendu avec FOAF et Dublin Core. Les attributs RDFa de valeurs rel, property, resource, href, marqués en bleu dans cet exemple prennent des valeurs définies par l’espace de nom et le nom du champ. L’objet correspond au contenu de la balise :

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN"
 "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">
<!-- Déclaration des espaces de nom FOAF et Dublin Core-->
<html xmlns="http://www.w3.org/1999/xhtml"
 xmlns:foaf="http://xmlns.com/foaf/0.1/"
 xmlns:dc="http://purl.org/dc/elements/1.1/"
 version="XHTML+RDFa 1.0" xml:lang="en">
 <head>
  <title>John's Home Page</title>
  <base href="http://example.org/john-d/" />
  <meta property="dc:creator" content="Jonathan Doe" />
  <link rel="foaf:primaryTopic" href="http://example.org/john-d/#me" />
 </head>
 <body about="http://example.org/john-d/#me">
  <h1>John's Home Page</h1>
  <!-- Les attributs property, rel et href fournissent l’information sémantique -->
  <p>My name is <span property="foaf:nick">John D</span> and I like
   <a href="http://www.neubauten.org/" rel="foaf:interest" xml:lang="de">Einstürzende Neubauten</a>.
  </p>
  <p>
   <!-- resource spécifie un identifiant non “clickable” -->
   My <span rel="foaf:interest" resource="urn:ISBN:0752820907">
      favorite book is the inspiring
       <span about="urn:ISBN:0752820907"><cite property="dc:title">Weaving the Web</cite> by
        <span property="dc:creator">Tim Berners-Lee</span>
       </span>
      </span>
  </p>
 </body>
</html>

Des gestionnaires de contenu comme WordPress ou Drupal, des moteurs de recherche spécialisés comme OpenGrey, exposent leurs métadonnées en RDFa. Les moteurs de recherche tels que Google, ou Isidore au CNRS prennent en compte les balises RDFa qu’ils trouvent dans les sites indexés. La version 1.1 de RDFa prévoit la spécification d’une partie coeur commune, et d’adaptations spécifiques à différents formats. Des adaptations pour XHML1 et HTM5 sont prévues.

Des outils en ligne permettent de visualiser de manière didactique les métadonnées contenues dans une page HTML. On peut par exemple en cliquant ici voir les métadonnées de l’article que vous lisez actuellement, à l’aide de « Structured Data Linter ».

RDFa Primer : http://www.w3.org/TR/xhtml-rdfa-primer/
RDFa in XHTML : http://www.w3.org/TR/rdfa-syntax/
Les nouveautés de RDFa 1.1 : http://tcuvelier.developpez.com/tutoriels/web-semantique/rdfa/nouveautes-rdfa-1-1/
Stéphane POUYLLAU, Construire le web de données pour les shs : comment utiliser RDFa ? :
http://blog.stephanepouyllau.org/401

Les microdata

HTML Microdata est publié par le W3C en 2011 sous forme de recommandation en cours d’élaboration. Cette spécification n’est pas encore validée. Elle est produite conjointement par le W3C et par Google, Yahoo et Microsoft (Bing). Les moteurs de recherche souhaitent pouvoir enrichir la présentation et la pertinence des résultats de recherche à l’aide des métadonnées du web sémantique. Comme avec RDFa, les informations sémantiques sont localisées dans des attributs de balises HTML standards. 5 attributs sont définis : itemid, itemprop, itemref, itemscope, itemtype. La syntaxe ne prend par contre pas en compte de schéma externe.

Google, Yahoo et Bing co-publient en 2011 le site schema.org qui propose des schémas et des exemples de microdonnées. Parmi les schémas susceptibles d’intéresser les musées, les bibliothèques, les archives et la recherche on peut citer ScholarlyArticle, Book, Review, MediaObject, Painting, Photograph, Sculture, WebPage, et aussi Organization, Place, Person, Intangible.

Exemple de HTML5 intégrant les microdonnées de schema.org :

<!DOCTYPE HTML>
<html lang="en">
 <head>
  <meta charset=utf-8>
  <title>The Catcher in the Rye - Description</title>
 </head>
 <body itemtype="http://schema.org/WebPage">
  ...
  <div itemscope itemtype="http://schema.org/Book">
   <img itemprop="image" src="catcher-in-the-rye-book-cover.jpg" />
   <span itemprop="name">The Catcher in the Rye</span> -
   by <span itemprop="author">J.D. Salinger</span>
   Product details
   <span itemprop="numPages">224</span> pages
   Publisher: <span itemprop="publisher">Little, Brown, and Company</span> -
   <span itemprop="datePublished" content="1991-05-01">May 1, 1991</span>
   Language: <span itemprop="inLanguage">English</span>
   ISBN-10: <span itemprop="isbn">0316769487</span>
  </div>
 …
 </body>
</html>

HTML microdata http://dev.w3.org/html5/md/Overview.html
Schema.org : http://schema.org
Web sémantique et (X)HTML5 : les microdonnées et les éléments sémantiques http://tcuvelier.developpez.com/tutoriels/web-semantique/html5-microdonnees/introduction/

En conclusion

Différentes méthodes permettent l’exposition des métadonnées sous forme de données sémantiques. Alors qu’avec RDF les métadonnées sont exposées sous forme de fichiers XML indépendants, RDFa permet l’intégration des informations dans le code HTML. RDFa est indexé par Google et est implémenté par des gestionnaires de contenu tels que WordPress ou Drupal. Les microdonnées, encore en cours de spécification, constitueront sans aucun doute une alternative puissante et relativement simple à mettre en place dans différents gestionnaires de contenus.

, , , , , , ,

  1. À quoi sert le web sémantique, en Histoire et Philosophie des Sciences et des Techniques ? | Semantic HPST

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :