Articles tagués Métadonnées descriptives

METS (Metadata Encoding and Transmission Standard)

METS  est un exemple de format conteneur permettant de rassembler en un fichier unique des données du type objet numérique et des métadonnées. Ce format XML qui trouve une application remarquable dans le signalement des thèses françaises facilite les échanges d’information entre organismes et logiciels.

Initiée par la Fédération des Bibliothèques numériques américaine – DLF (Digital Library Federation), la première version validée date de 2001, la version actuelle (2.0) date d’avril 2010. Le site du format [1] hébergé par la Bibliothèque du Congrès des Etats-Unis fournit toutes les informations officielles.

Le schéma XML METS permet l’encodage des métadonnées descriptives, de gestion et de structure des objets numériques. L’application principale concerne l’archivage pérenne des données numériques, lors des phases de versement, d’archivage ou de diffusion des paquets d’informations, pour reprendre la terminologie du modèle OAIS. Les composantes des objets sont identifiées à l’aide d’un lien interne ou d’un URI, elles peuvent, si souhaité, être inclues au fichier sous forme de données binaires.

Le schéma METS [2] comprend 7 sections dont une seule (structMap) est obligatoire :

Header (metsHdr) : Cette section facultative et répétable contient les métadonnées concernant le document METS lui-même telles que le créateur, le logiciel d’édition employé.
Descriptive metadata (dmdSec) contient les métadonnées descriptives de l’objet. Des schémas externes comme Dublin Core simples et qualifiés, MARCXML, MODS, EAD, peuvent être utilisés. On peut aussi intégrer des métadonnées binaires telles que MARC. Cette section est facultative et répétable.
Administrative metadata (amdSec) contient les métadonnées de gestion correspondant à l’Information de pérennisation du modèle OAIS. Cette section est facultative et répétable pour chaque composante d’un objet numérique. Elle peut contenir un ou plusieurs éléments renseignés avec Technical metadata (techMD), Source metadata (sourceMD), Rights metadata (rightsMD), Digital Provenance metadata (digiprovMD). Ainsi, le format MIX spécifique des images étend la section techMD. Les éléments PREMIS peuvent être inclus dans amdSec ou être répartis dans les sections de METS [3]. Des redondances entre METS et PREMIS sont possibles.
File Section (fileSec) liste les fichiers composantes de l’objet numérique. Les fichiers sont localisés et identifiés à l’aide d’une URL ou bien sont  physiquement présents en tant que binaire intégré au XML. Les sous-éléments fileGrp répétables permettent l’enregistrement de plusieurs versions d’un même objet. Cette section est facultative mais typiquement renseignée.
Structural Map (structMap) contient les informations concernant la hiérarchie de structure de l’objet et lie cette hiérarchie avec les fichiers. Cette section est la seule obligatoire.
Structural Links (structLink) renseigne les hyperliens entre composantes de l’objet. Cette section est facultative et répétable.
Behavior (behaviorSec). Cette section facultative et répétable contient les informations concernant les programmes nécessaires à la lecture de l’objet.

Des profils de schémas validés [4]  produits par des organismes utilisateurs peuvent être utilisés pour décrire toutes sortes d’objets numériques tels que des références bibliographiques, des fichiers PDF, des photographies, des partitions, des enregistrements audio ou vidéo, des collections diverses. Des exemples [5], des présentations [6] de même que des outils sont disponibles sur le site.

Un schéma METS TEF 2.0 a été développé par l’ABES en 2006, et est utilisé pour signaler les métadonnées des thèses françaises [7].

METS est implémenté dans différentes applications et outils d’archivage et d’édition numérique, notamment dans des logiciels DSpace, Fedora, JHove, OJS, Mnesys Archives.

[1] METS à la Bibliothèque du Congrès : http://www.loc.gov/standards/mets/
[2] Survol et Tutoriel : http://www.loc.gov/standards/mets/METSOverview.v2.html
[3] METS et PREMIS : http://www.loc.gov/standards/premis/guidelines-premismets.pdf
[4] Profils de schémas METS : http://www.loc.gov/standards/mets/mets-profiles.html
[5] Des exemples de fichiers METS : http://www.loc.gov/standards/mets/mets-examples.htmlhttp://digitalassets.lib.berkeley.edu/techreports/ucb/mets/cuengi_10_1_00025320.xml
[6] Présentation : http://www.loc.gov/standards/mets/presentations/METS.ppt
[7] TEF 2.0 : http://www.abes.fr/abes/documents/tef/recommandation/index.html

Publicités

, , , , ,

Poster un commentaire

Les métadonnées descriptives : quelques formats spécialisés

Les métadonnées descriptives contiennent l’Information de description telle que définie dans le modèle OAIS. Elles comprennent  notamment le titre, les auteurs, le résumé, les mots-clés, le code de classement, des dates, l’identifiant des objets. De nombreux formats de métadonnées tels que  EAD, MARC ou MODS ont été développés pour répondre aux exigences rencontrées dans les métiers de l’archivage, des bibliothèques, de l’édition, des musées ou de la recherche. 

EAD (Encoded Archival Description)

EAD est utilisé en France par les archives nationales et départementales, par certaines bibliothèques dont la BNF et certains musées essentiellement pour décrire des objets physiques tels que des manuscrits, des livres, des films, des cartes, mais aussi  des objets numériques. C’est un format XML maintenu par la Bibliothèque du Congrès et par la SAA (Society of American Archivists) dont la dernière version date de 2002. Des éléments textuels des objets peuvent être incorporés aux métadonnées pour améliorer la description et faciliter les recherches.

Encoded Archival Description : Version 2002 Official Site http://www.loc.gov/ead/
Aux Archives de France : http://www.archivesdefrance.culture.gouv.fr/gerer/classement/normes-outils/ead/
BNF : http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html
Société des Archivistes Américains : http://www.archivists.org/saagroups/ead/

Les formats dérivés de MARC (MAchine Readable Cataloging)

MARC est utilisé par les bibliothèques pour encoder les métadonnées des objets physiques ou numériques qu’elles collectent, tels que les livres, les périodiques et les articles. Publié en 1968 par la Bibliothèque du Congrès, normalisé ISO 2709 en 1973, le format  nécessite l’utilisation d’un logiciel spécialisé pour être lu. Les champs et les sous-champs sont identifiés à l’aide d’un code à 3 chiffres suivi d’une lettre.

Le format MARC a donné naissance à un grand nombre de variantes nationales et internationales parmi lesquelles on peut citer INTERMARC utilisé par la BNF (Bibliothèque Nationale de France) depuis 1974, UNIMARC créé par l’IFLA (International Federation of Library Associations and Institutions) en 1977, MARC 21 publié en 1994 par la Bibliothèque du Congrès.

Ces formats ont ensuite été déclinés en schémas XML en vue de faciliter la lecture et les échanges. Créé en 1999 par le ministère de la Culture français, BiblioML retranscrit UNIMARC en XML. Publié en 2002 par la Bibliothèque du Congrès, le format MARCXML est une transcription en XML de MARC 21. Développé en 2002 par la bibliothèque du congrès également, le format MODS (Metadata Object Description Schema) intègre les principaux champs de MARC dans des balises explicites, ce qui facilite la lecture des métadonnées par des non-spécialistes du catalogage. Ce dernier format évolue régulièrement, la version 3.4 est publiée en 2010. Certaines archives exportent leurs métadonnées en MODS à l’aide de OAI-PMH.

Les formats MARC 21 : http://www.loc.gov/marc/marcdocz.html
Le format MARCXML : http://www.loc.gov/standards/marcxml/
Le format UNIMARC : http://www.ifla.org/unimarc
Le format INTERMARC :
http://www.bnf.fr/fr/professionnels/f_intermarc/s.format_intermarc_biblio.html
Le format MARCXML : http://www.loc.gov/standards/marcxml/
Exemple de fichier MARCXML – les champs MARC 21 sont transcrits dans l’attribut tag du champ controlfield, les sous-champs dans l’attribut code de subfield : http://www.loc.gov/standards/marcxml/xml/collection.xml
Le format MODS : http://www.loc.gov/standards/mods/
Exemple de fichier MODS : http://www.loc.gov/standards/mods/v3/mods99042030.xml

Autres formats de métadonnées descriptives

La diversité des objets et des usages a entraîné récemment l’émergence de nouveaux formats dont l’évolution est encore en cours; les changements de version sont fréquents. Sans prétendre à l’exhaustivité, voici des liens vers quelques formats classés par domaine d’application.

Description des autorités, personnes et organismes  :

Données démographiques et sociologiques :

Géo-localisation :

Livres,  périodiques, licences et droits de reproduction :

Ressource visuelle :

Sites archéologiques, monuments historiques :

Corpus oraux :

Données multimédias :

En conclusion :

Si les formats EAD et MARC sont employés depuis de nombreuses années pour décrire des centaines de millions d’objets physiques et numériques, de nombreux autres formats, parfois concurrents, sont apparus récemment, trouvant des applications dans de nombreux domaines. Seuls les formats adoptés par un grand nombre d’archives, supportés durablement par des institutions solides seront à même d’émerger.

, , , , , , , , , ,

Poster un commentaire

Dublin Core

Les métadonnées descriptives contiennent l’Information de description telle que définie dans le modèle OAIS. Elles comprennent notamment le titre, les auteurs, le résumé, les mots-clés, le code de classement, des dates, l’identifiant des objets. Dublin Core permet la description d’objets numériques ou physiques de toutes sortes. C’est un format de métadonnées très souple et très largement employé.

Elaboré à l’initiative de l’OCLC (Online Computer Library Center) et du  NCSA (National Center for Supercomputing Applications) en 1995 lors d’une réunion de travail à Dublin (Ohio), le format est maintenu par le DCMI (Dublin Core Metadata Initiative). Normalisé iso 15836 en 2003, le langage est régulièrement mis à jour. Dublin Core définit des éléments dont l’emploi est facultatif et qui peuvent être répétés. Les 15 premiers, spécifiés dès 2001, constituent le “Dublin Core simple”. La version actuelle  nommée “Dublin Core qualifié” comprend 7 éléments supplémentaires et autorise l’emploi de qualifiants (qualifiers en anglais) qui viennent préciser le sens, la syntaxe ou le vocabulaire de certains éléments.

Les 22 éléments du Dublin Core qualifié (2011) :

Elément

Description

Title Titre du document : il s’agit a priori du titre principal du document.
Subject Sujet et mots-clés : mots-clés, phrases de résumé, ou codes de classement. Il est préférable d’utiliser des mots-clés choisis dans le cadre d’une politique de classement. Par exemple, on peut utiliser les codages de la bibliothèque du congrès (LCSH et LCC), le vocabulaire médical (MESH), ou les notations décimales des bibliothécaires (DDC et UDC).
Description Description du document : résumé, table des matières, ou texte libre.
Type Nature ou genre du contenu : grandes catégories de document. Il est recommandé d’utiliser des termes clairement définis au sein de l’organisme. Par exemple, le Dublin Core définit différents types dans le vocabulaire DCMI Types.
Source Ressource dont dérive le document : le document peut découler en totalité ou en partie de la ressource en question. Il est recommandé d’utiliser une dénomination formelle des ressources, par exemple leur URI.
Relation Lien vers une ressource liée : il est recommandé d’utiliser une dénomination formelle des ressources, par exemple leur URI.
Coverage Portée du document : la portée inclut un domaine géographique, un laps de temps, ou une juridiction (nom d’une entité administrative). Il est recommandé d’utiliser des représentations normalisées de ces types de données, par exemple TGN (Thesaurus of Geographic Names, un dictionnaire de noms de lieux), ISO3166, Point ou Box pour la portée spatiale, Period ou W3CDTF pour la portée temporelle.
Creator Créateur du document : nom de la personne, de l’organisme ou du service à l’origine de la rédaction du document.
Publisher Editeur du document : nom de la personne, de l’organisme ou du service à l’origine de la publication du document.
Contributor Contributeur au document : nom d’une personne, d’un organisme ou d’un service qui contribue ou a contribué à l’élaboration du document.
Rights Droits relatifs à la ressource : permet de donner des informations sur le statut des droits du document, par exemple la présence d’un copyright, ou un lien vers le détenteur des droits. L’absence de cette propriété ne présume pas que le document est libre de droits.
Date Date d’un événement dans le cycle de vie du document : il peut s’agir par exemple de la date de création ou de la date de mise à disposition. Il est recommandé de spécifier la date au format W3CDTF (AAAA-MM-JJ).
Format Format du document : format physique ou électronique du document. Par exemple, type de média ou dimensions (taille, durée). On peut spécifier le matériel et le logiciel nécessaires pour lire le document. Il est recommandé d’utiliser des termes clairement définis, par exemple le type MIME.
Identifier Identificateur non ambigu : il est recommandé d’utiliser un système de référencement précis, par exemple les URI ou les numéros ISBN.
Language Langue du document : il est recommandé d’utiliser un code de langue conforme au format RFC4646.
Audience Public du document : ciblé par l’auteur ou l’éditeur
Provenance Provenance : indique tout changement de propriétaire ou de détenteur du document
RightsHolder Détenteur des droits : personne ou organisme gestionnaire ou propriétaire des droits
InstructionalMethod Méthode d’instruction : pour des ressources de type pédagogique
AccrualMethod Méthode d’acquisition : telle qu’un dépôt ou un achat
AccrualPeriodicity Périodicité d’acquisition : fréquence à laquelle des items sont ajoutés à une collection
AccrualPolicy Politique d’acquisition : concernant l’ajout d’items à une collection

Les qualifiants sont de 2 sortes :
– L’affinement d’élément  permet de préciser le sens d’un élément en le rendant plus spécifique.  Ainsi  l’élément Date peut être affiné à l’aide des qualifiants Created, Valid, Available, Issued, Modified, dateAccepted, dateCopyrighted, dateSubmitted.
– Le schéma d’encodage permet de préciser la syntaxe ou le vocabulaire employé. Ainsi W3CDTF peut préciser la syntaxe de l’élément Date, DDC (Dewey Decimal Classification) permet de spécifier le vocabulaire de Subject, le vocabulaire « DCMI Type » peut être employé pour l’élément Type.

L’implémentation de Dublin Core est possible dans un fichier au format texte ou dans des fichiers balisés tels que HTML, XHTML, XML ou RDF. Les modalités d’intégration font l’objet de recommandations du DCMI. Voici quelques exemples d’utilisation incluant des commentaires.

Dublin Core étendant RDF, un des langages du web sémantique :

<?xml version="1.0"?>
 <!DOCTYPE rdf:RDF PUBLIC "-//DUBLIN CORE//DCMES DTD 2002/07/31//EN"
 "http://dublincore.org/documents/2002/07/31/dcmes-xml/dcmes-xml-dtd.dtd">
 <!-- Déclaration des espaces de nom RDF et DC -->  
 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
 xmlns:dc ="http://purl.org/dc/elements/1.1/">
 <!-- Métadonnées Dublin Core -->  
 <rdf:Description rdf:about="http://dublincore.org/">
 <dc:title>Dublin Core Metadata Initiative - Home Page</dc:title>
 <dc:description>The Dublin Core Metadata Initiative Web site.</dc:description>
 <dc:date>2001-01-16</dc:date>
 <dc:format>text/html</dc:format>
 <dc:language>en</dc:language>
 <dc:contributor>The Dublin Core Metadata Initiative</dc:contributor>
 <dc:title xml:lang="fr">L'Initiative de métadonnées du Dublin Core</dc:title>
 <dc:title xml:lang="de">Der Dublin-Core Metadata-Diskussionen</dc:title>
 </rdf:Description>
 </rdf:RDF>

Dublin Core qualifié étendant XHTML :

Les métadonnées prennent place dans les balises meta de l’en-tête. Les espaces de noms DC et DCTERMS sont préalablement déclarés. L’exemple suivant est un extrait du code source de http://hdl.handle.net/2042/15134. Les métadonnées décrivent un fichier pdf provenant de l’archive DSpace / I-Revues de l’INIST contenant un article de la revue Hermès.

<?xml version="1.0" encoding="UTF-8"?>
 <!-- Déclaration du type de document -->
 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
 <html xmlns:xlink="http://www.w3.org/TR/xlink/" xmlns:mods="http://www.loc.gov/mods/v3" xmlns:dim="http://www.dspace.org/xmlns/dspace/dim" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:mets="http://www.loc.gov/METS/" xmlns:dri="http://di.tamu.edu/DRI/1.0/" xmlns:i18n="http://apache.org/cocoon/i18n/2.1">
 <head>
 <meta content="text/html; charset=UTF-8" http-equiv="Content-Type" />
 <meta name="Generator" content="DSpace 1.7.0" />
 <title>Psychanalyse et politique in Individus et politique.</title>
 <!-- Déclaration des schémas DC et DCTERMS -->
 <link rel="schema.DCTERMS" href="http://purl.org/dc/terms/" />
 <link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" />
 <!-- Métadonnées au format Dublin Core -->
 <meta name="DC.creator" content="ASSOUN, P.-C." xml:lang="-" />
 <meta name="DC.creator" content="FROMM, Erich" xml:lang="-" />
 <!-- L’emploi du format W3CDTF est précisé pour la date -->
 <meta name="DCTERMS.dateAccepted" content="2008-02-15T09:17:51Z" scheme="DCTERMS.W3CDTF" />
 <meta name="DCTERMS.available" content="2008-02-15T09:17:51Z" scheme="DCTERMS.W3CDTF" />
 <meta name="DCTERMS.issued" content="1989" xml:lang="en_US" scheme="DCTERMS.W3CDTF" />
 <meta name="DC.identifier" content="http://hdl.handle.net/2042/15134" scheme="DCTERMS.URI" />
 <meta name="DCTERMS.abstract" content="Recueil de 8 articles. La correspondance Freud-Einstein : &quot; Pourquoi la guerre &quot; (1933), commentée par F. FORNARI et P.-C. ASSOUN, qui est l'auteur d'autre part de &quot; Freudisme et indifférentisme politique : objet de l'idéal et objet de la démocratie &quot;. De E. FROMM : &quot; Méthode et tâche d'une psychologie analytique &quot; (1932). D'autres articles : Psychanalyse et politique sociale| Approche communicationnelle de l'inconscient| Le discours analytique et la politique" xml:lang="fr" />
 <meta name="DCTERMS.extent" content="28847 bytes" />
 <meta name="DC.format" content="application/pdf" />
 <meta name="DC.language" content="fr" xml:lang="en_US" scheme="DCTERMS.RFC1766" />
 <meta name="DC.publisher" content="CNRS Editions, Paris (FRA)" xml:lang="en_US" />
 <meta name="DC.relation" content="http://irevues.inist.fr/utilisation" xml:lang="en_US" />
 <meta name="DC.source" content="Hermès (Paris.1988) [ISSN 0767-9513], 1989, N° 5-6; p. 255-366" xml:lang="en_US" />
 <!-- L’élément subject est répété -->
 <meta name="DC.subject" content="Politique" xml:lang="fr" />
 <meta name="DC.subject" content="Psychanalyse" xml:lang="fr" />
 <meta name="DC.subject" content="Psychosociologie" xml:lang="fr" />
 <meta name="DC.subject" content="Politics" xml:lang="en" />
 <meta name="DC.subject" content="Psychoanalysis" xml:lang="en" />
 <meta name="DC.subject" content="Psychosociology" xml:lang="en" />
 <meta name="DC.title" content="Psychanalyse et politique in Individus et politique." xml:lang="fr" />
 <meta name="DC.type" content="Article" xml:lang="en_US" />
 <!-- Métadonnées non Dublin Core -->
 <meta content="CNRS Editions, Paris (FRA)" name="citation_publisher" />
 <meta content="http://documents.irevues.inist.fr/handle/2042/15134" name="citation_abstract_html_url" />
 <meta content="Psychanalyse et politique in Individus et politique." name="citation_title" />
 <meta content="Article" name="citation_keywords" />
 <meta content="ASSOUN, P.-C.; FROMM, Erich" name="citation_authors" />
 <meta content="fr" name="citation_language" />
 <meta content="http://documents.irevues.inist.fr/bitstream/2042/15134/1/HERMES_1989_5-6_255_P3.pdf" name="citation_pdf_url" />
 <meta content="1989" name="citation_date" />
 </head>
 <body>
 <div>(…)</div>
 </body>
 </html>

OAI-PMH :

Dublin Core trouve une application majeure avec OAI-PMH (Open Archive Initiative – Protocol for Metadata Harvesting). Le protocole permet les échanges de métadonnées entre entrepôts (archives numériques ouvertes, systèmes d’édition électronique ouverts) et moissonneurs. Ces derniers réccoltent les métadonnées à l’aide d’une requête http dont le formalisme est défini dans le protocole. La réponse des entrepôts est un fichier XML au format OAI-PMH incluant les métadonnées Dublin Core. Isidore (CNRS) ou Europeana(Union Européenne) fonctionnent sur ce principe et offrent des fonctionnalités de recherche dans les domaines des sciences humaines et sociales.

Fichier OAI-PMH correspondant à l’exemple vu précédemment. Visualiser le code source de http://documents.irevues.inist.fr/dspace-oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:documents.irevues.inist.fr:2042/15134 .

<?xml version="1.0" encoding="UTF-8" ?>
 <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
 <responseDate>2011-09-24T07:32:39Z</responseDate>
 <request metadataPrefix="oai_dc" verb="GetRecord" identifier="oai:documents.irevues.inist.fr:2042/15134"> http://documents.irevues.inist.fr/dspace-oai/request </request>
 <GetRecord>
 <record>
 <header>
 <identifier>oai:documents.irevues.inist.fr:2042/15134</identifier>
 <datestamp>2009-11-20T06:22:58Z</datestamp>
 <setSpec>hdl_2042_15095</setSpec>
 </header>
 <metadata>
 <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
 <dc:title> Psychanalyse et politique in Individus et politique. </dc:title>
 <dc:creator>ASSOUN, P.-C.</dc:creator>
 <dc:creator>FROMM, Erich</dc:creator>
 <dc:subject>Politique</dc:subject>
 <dc:subject>Psychanalyse</dc:subject>
 <dc:subject>Psychosociologie</dc:subject>
 <dc:subject>Démocratie</dc:subject>
 <dc:subject>Guerre</dc:subject>
 <dc:subject>Nucléaire</dc:subject>
 <dc:subject>Communication</dc:subject>
 <dc:subject>Freud, S.</dc:subject>
 <dc:subject>Einstein, A.</dc:subject>
 <dc:subject>Fromm, E.</dc:subject>
 <dc:subject>Philosophie du droit</dc:subject>
 <dc:subject>Politics</dc:subject>
 <dc:subject>Psychoanalysis</dc:subject>
 <dc:subject>Psychosociology</dc:subject>
 <dc:subject>Democracy</dc:subject>
 <dc:subject>War</dc:subject>
 <dc:subject>Nuclear</dc:subject>
 <dc:subject>Communication</dc:subject>
 <dc:subject>Freud, S.</dc:subject>
 <dc:subject>Einstein, A.</dc:subject>
 <dc:subject>Fromm, E.</dc:subject>
 <dc:subject>Philosophy of law</dc:subject>
 <dc:description> Recueil de 8 articles. La correspondance Freud-Einstein : " Pourquoi la guerre " (1933), commentée par F. FORNARI et P.-C. ASSOUN, qui est l'auteur d'autre part de " Freudisme et indifférentisme politique : objet de l'idéal et objet de la démocratie ". De E. FROMM : " Méthode et tâche d'une psychologie analytique " (1932). D'autres articles : Psychanalyse et politique sociale| Approche communicationnelle de l'inconscient| Le discours analytique et la politique </dc:description>
 <dc:publisher>CNRS Editions, Paris (FRA)</dc:publisher>
 <dc:date>2008-02-15T09:17:51Z</dc:date>
 <dc:date>2008-02-15T09:17:51Z</dc:date>
 <dc:date>1989</dc:date>
 <dc:type>Article</dc:type>
 <dc:format>28847 bytes</dc:format>
 <dc:format>application/pdf</dc:format>
 <dc:identifier>http://hdl.handle.net/2042/15134</dc:identifier>
 <dc:source> Hermès (Paris.1988) [ISSN 0767-9513], 1989, N° 5-6; p. 255-366 </dc:source>
 <dc:language>fr</dc:language>
 <dc:rights>http://irevues.inist.fr/utilisation</dc:rights>
 </oai_dc:dc>
 </metadata>
 </record>
 </GetRecord>
 </OAI-PMH>

Le DCMI : http://dublincore.org/
Dublin Core et HTML/XHTML : http://dublincore.org/documents/dc-html/
Dublin Core et RDF/XML : http://dublincore.org/documents/dcq-rdf-xml/
DCMI – Wiki Paris Descartes : http://wiki.univ-paris5.fr/wiki/DCMI
Métadonnées et Dublin Core – Openweb.eu.org : http://openweb.eu.org/articles/dublin_core
Dublin core : théorie et applications, C. Morel-Pair, 2009 : http://mediadix.u-paris10.fr/stockage_doc/metadonneesbibnum/metasDCMorelPair.pdf

En conclusion :

L’emploi de Dublin Core est largement répandu dans les applications de l’édition électronique, des bibliothèques numériques et de l’archivage, assurant une description souple et précise des objets numériques (page HTML, article, fichier PDF, image, vidéo…). Le langage trouve ses principales applications dans le référencement des objets par les moteurs de recherche du web et par les moissonneurs OAI-PMH.

, , , , , ,

1 commentaire

Les métadonnées sémantiques : RDF, RDFa et les microdata

Définis en tant que standard par le W3C dans le cadre de ses travaux sur le web sémantique, RDF, RDFa et les microdata répondent à une logique « sujet, prédicat, objet ». Ces formats permettent l’introduction dans les métadonnées d’une sémantique que différents logiciels vont exploiter et réutiliser.

Le W3C (World Wide Web Consortium) débute dès 1994 ses travaux sur le Web sémantique ou Web des données. Il s’agit d’un projet à long terme visant à répertorier de manière fine les connaissances stockées dans les pages du web afin de permettre une recherche plus précise et une réutilisation dans d’autres applications. Les langages sémantiques RDF, RDFa et les microdata (microdonnées) sont successivement spécifiés. Implémentés dans les logiciels des bibliothèques, des éditeurs, des centres d’archivage et des musées, mais aussi dans les gestionnaires de contenu, ils peuvent servir pour les échanges de métadonnées entre logiciels ou servir aux moteurs de recherche. C’est ce qu’on appelle l’interopérabilité.

Semantic Web – W3C : http://www.w3.org/standards/semanticweb/
Introduction au web sémantique : http://jplu.developpez.com/tutoriels/web-semantique/introduction/
Structured Data for Author Pages and Linked Snippets, 2013 : http://www.seoskeptic.com/structured-data-for-author-pages-and-linked-snippets/
À quoi sert le web sémantique, en Histoire et Philosophie des Sciences et des Techniques ? : http://semhpst.hypotheses.org/17

RDF (Resource Description Framework)

Le langage pilier du web sémantique RDF est publié sous forme de recommandation en 1999. Une deuxième version paraît en 2004. Le langage permet la description des ressources du web à l’aide d’assertions (ou statements) constituées d’un triplet comprenant un sujet, un prédicat et un objet. Le sujet identifie la ressource à décrire, le prédicat indique un aspect particulier du sujet et l’objet précise la valeur du prédicat. Dans l’assertion « Jacques habite Amance », « Jacques » est le sujet, « habite » est le prédicat et « Amance » est l’objet. Sujets et objets doivent être identifiés de manière permanente et unique avec un identifiant du type URI (Uniform Ressource Identifier) ou URL (Uniform Ressource Locator). RDF est un langage puissant de description des données qui permet la création d’inférences. Plusieurs assertions peuvent par exemple être combinées pour en déduire de nouvelles. Si on ajoute à l’exemple précédent l’assertion « Amance est en Meurthe et Moselle », on réalise l’inférence « Jacques habite en Meurthe et Moselle ».

Une assertion peut être représentée à l’aide d’un graphe dans lequel sujet et objet sont les noeuds et le prédicat est la flèche. L’exemple suivant représente l’assertion : La page html  http://www.example.org/index.html a été créée, au sens « creator » de Dublin Core, par la personne identifiée par l’URL http://www.example.org/staffid/85740. Sujets, prédicats et objets sont identifiés sur le web par un URL qui donne des renseignements complémentaires sur le contexte d’utilisation.

Une représentation équivalente de RDF en XML est la suivante :

<?xml version="1.0"?>
<!-- Déclaration des espaces de nom RDF et Dublin Core-->
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
 xmlns:dc="http://purl.org/dc/elements/1.1/">
 <!-- Description de l’objet identifié par son URL -->
 <rdf:Description rdf:about="http://www.example.org/index.html">
  <!-- L’auteur est identifié par une URL -->
  <dc:creator rdf:resource="http://www.example.org/staffid/85740"/>
 </rdf:Description>
</rdf:RDF>

RDF peut être étendu à l’aide des schémas, ontologies ou vocabulaires Dublin Core ou FOAF (Friend Of A Friend) pour décrire les personnes par exemple. Les langages du web sémantique  RDFS (RDF Schema), OWL (Web Ontology Language), SKOS (Simple Knowledge Organisation System) sont aussi basés sur RDF.

Des recommandation voient le jour, visant à utiliser RDF pour décrire les objets des bibliothèques, des archives, des musées et de la recherche. Suite à des travaux s’étendant de 1991 à 1997, l’IFLA (International Federation of Library Associations and Institutions) publie en 1998  Functional Requirements for Bibliographic Records (FRBR) – Spécifications fonctionnelles des notices bibliographiques. Il s’agit d’un modèle théorique visant à décrire les informations des notices bibliographiques des bibliothèques, renseignées lors du catalogage.

Normalisé ISO 21127, The CIDOC conceptual reference model est publié en 2006 par le CIDOC (Comité International pour la DOCumentation), un organisme international œuvrant dans le domaine de la documentation muséale. Il définit une ontologie RDF pour les bibliothèques, les archives et les musées. Des travaux ultérieurs du CIDOC visant à faire converger le modèle de référence conceptuel avec le FRBR aboutissent à l’ontologie FRBR-object oriented ou FRBRoo approuvée par L’IFLA en 2008.

RDF : www.w3.org/RDF/ , http://www.w3.org/TR/rdf-primer/
Functional Requirements for Bibliographic Records :
http://www.ifla.org/publications/functional-requirements-for-bibliographic-records
The CIDOC Conceptual Reference Model : http://www.cidoc-crm.org/
FRBRoo Introduction : http://www.cidoc-crm.org/frbr_inro.html

RDFa (Ressource Description Framework in attributes) 

Mais pour une reconnaissance par les moteurs de recherche du web, l’intégration des informations sémantiques au code HTML peut paraitre plus aisé. Publié en 2008, RDFa (Ressource Description Framework in attributes) propose l’incorporation des données sémantiques dans les balises des documents XML, XHTML ou HTML5. RDFa définit un ensemble d’attributs (rel, rev, content, href, src, about, property, resource, datatype, typeof) qui permettent de qualifier les éléments de la page. Le format permet aussi de spécifier les ontologies ou vocabulaires utilisés et les espaces de noms.

Exemple de document RDFa 1.0 et XHTML étendu avec FOAF et Dublin Core. Les attributs RDFa de valeurs rel, property, resource, href, marqués en bleu dans cet exemple prennent des valeurs définies par l’espace de nom et le nom du champ. L’objet correspond au contenu de la balise :

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN"
 "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">
<!-- Déclaration des espaces de nom FOAF et Dublin Core-->
<html xmlns="http://www.w3.org/1999/xhtml"
 xmlns:foaf="http://xmlns.com/foaf/0.1/"
 xmlns:dc="http://purl.org/dc/elements/1.1/"
 version="XHTML+RDFa 1.0" xml:lang="en">
 <head>
  <title>John's Home Page</title>
  <base href="http://example.org/john-d/" />
  <meta property="dc:creator" content="Jonathan Doe" />
  <link rel="foaf:primaryTopic" href="http://example.org/john-d/#me" />
 </head>
 <body about="http://example.org/john-d/#me">
  <h1>John's Home Page</h1>
  <!-- Les attributs property, rel et href fournissent l’information sémantique -->
  <p>My name is <span property="foaf:nick">John D</span> and I like
   <a href="http://www.neubauten.org/" rel="foaf:interest" xml:lang="de">Einstürzende Neubauten</a>.
  </p>
  <p>
   <!-- resource spécifie un identifiant non “clickable” -->
   My <span rel="foaf:interest" resource="urn:ISBN:0752820907">
      favorite book is the inspiring
       <span about="urn:ISBN:0752820907"><cite property="dc:title">Weaving the Web</cite> by
        <span property="dc:creator">Tim Berners-Lee</span>
       </span>
      </span>
  </p>
 </body>
</html>

Des gestionnaires de contenu comme WordPress ou Drupal, des moteurs de recherche spécialisés comme OpenGrey, exposent leurs métadonnées en RDFa. Les moteurs de recherche tels que Google, ou Isidore au CNRS prennent en compte les balises RDFa qu’ils trouvent dans les sites indexés. La version 1.1 de RDFa prévoit la spécification d’une partie coeur commune, et d’adaptations spécifiques à différents formats. Des adaptations pour XHML1 et HTM5 sont prévues.

Des outils en ligne permettent de visualiser de manière didactique les métadonnées contenues dans une page HTML. On peut par exemple en cliquant ici voir les métadonnées de l’article que vous lisez actuellement, à l’aide de « Structured Data Linter ».

RDFa Primer : http://www.w3.org/TR/xhtml-rdfa-primer/
RDFa in XHTML : http://www.w3.org/TR/rdfa-syntax/
Les nouveautés de RDFa 1.1 : http://tcuvelier.developpez.com/tutoriels/web-semantique/rdfa/nouveautes-rdfa-1-1/
Stéphane POUYLLAU, Construire le web de données pour les shs : comment utiliser RDFa ? :
http://blog.stephanepouyllau.org/401

Les microdata

HTML Microdata est publié par le W3C en 2011 sous forme de recommandation en cours d’élaboration. Cette spécification n’est pas encore validée. Elle est produite conjointement par le W3C et par Google, Yahoo et Microsoft (Bing). Les moteurs de recherche souhaitent pouvoir enrichir la présentation et la pertinence des résultats de recherche à l’aide des métadonnées du web sémantique. Comme avec RDFa, les informations sémantiques sont localisées dans des attributs de balises HTML standards. 5 attributs sont définis : itemid, itemprop, itemref, itemscope, itemtype. La syntaxe ne prend par contre pas en compte de schéma externe.

Google, Yahoo et Bing co-publient en 2011 le site schema.org qui propose des schémas et des exemples de microdonnées. Parmi les schémas susceptibles d’intéresser les musées, les bibliothèques, les archives et la recherche on peut citer ScholarlyArticle, Book, Review, MediaObject, Painting, Photograph, Sculture, WebPage, et aussi Organization, Place, Person, Intangible.

Exemple de HTML5 intégrant les microdonnées de schema.org :

<!DOCTYPE HTML>
<html lang="en">
 <head>
  <meta charset=utf-8>
  <title>The Catcher in the Rye - Description</title>
 </head>
 <body itemtype="http://schema.org/WebPage">
  ...
  <div itemscope itemtype="http://schema.org/Book">
   <img itemprop="image" src="catcher-in-the-rye-book-cover.jpg" />
   <span itemprop="name">The Catcher in the Rye</span> -
   by <span itemprop="author">J.D. Salinger</span>
   Product details
   <span itemprop="numPages">224</span> pages
   Publisher: <span itemprop="publisher">Little, Brown, and Company</span> -
   <span itemprop="datePublished" content="1991-05-01">May 1, 1991</span>
   Language: <span itemprop="inLanguage">English</span>
   ISBN-10: <span itemprop="isbn">0316769487</span>
  </div>
 …
 </body>
</html>

HTML microdata http://dev.w3.org/html5/md/Overview.html
Schema.org : http://schema.org
Web sémantique et (X)HTML5 : les microdonnées et les éléments sémantiques http://tcuvelier.developpez.com/tutoriels/web-semantique/html5-microdonnees/introduction/

En conclusion

Différentes méthodes permettent l’exposition des métadonnées sous forme de données sémantiques. Alors qu’avec RDF les métadonnées sont exposées sous forme de fichiers XML indépendants, RDFa permet l’intégration des informations dans le code HTML. RDFa est indexé par Google et est implémenté par des gestionnaires de contenu tels que WordPress ou Drupal. Les microdonnées, encore en cours de spécification, constitueront sans aucun doute une alternative puissante et relativement simple à mettre en place dans différents gestionnaires de contenus.

, , , , , , ,

1 commentaire