Les métadonnées descriptives : quelques formats pour les bibliothèques, les archives et les musées

Révisé : mai 2021

Seeing Standards : A Visualization of the Metadata Universe, Jenn Riley : Lien

Les métadonnées descriptives contiennent l’Information de description des fonds, catalogues, périodiques, documents, pièces et œuvres gérées dans le cadre du fonctionnement des bibliothèques, des archives et des musées. Ces institutions de mémoire possèdent chacune leurs traditions et outils spécifiques pour décrire les objets qu’elles prêtent pour les bibliothèques, qu’elles proposent de consulter pour les archives et exposent pour les musées. Elles partagent un certain nombre de points communs tels que la nécessité d’attribuer des identifiants uniques, de fournir des titres significatifs. Les métadonnées descriptives employés par les GLAM (Galleries, Libraries, Archives and Museums) résultent d’efforts et de réflexions débutés à la fin des années 60.

L’automatisation du catalogage à la Bibliothèque du Congrès peut être daté en effet de 1968. La création du format MARC (MAchine-Readable Cataloging) par Henriette Avram et son équipe marque une première étape importante initiée à l’époque des cartes perforées. MARC va se trouver décliné au fil des ans en plusieurs variantes parmi lesquels UNIMARC créé par l’IFLA en 1977, MARC21 (1999) et MARCXML (2004). Le nombre d’enregistrements aux formats MARC était d’environ 400 million en 2018. D’autres formats XML dédiés au catalogage entendent simplifier MARC. Les formats XML MODS (Metadata Object Description Standard) en 2002 et MADS (Metadata Authority Description Schema) en 2004 sont proposés par la Bibliothèque du Congrès. Ils sont suivis de Bibframe (Bibliographic Framework) dont la première édition date de 2016 et dans l’objectif est de prendre en compte les recommandations FRBR de l’IFLA et les conseils RDA de catalogage.

Au niveau informatique, les GLAM partagent des formats génériques tels que SGML, HTML, XML, DTD, XMLS et RDF. Leur origine remonte aux alentour de 1969 avec l’introduction par IBM et Charles F. Goldfarb du Generalized Markup Language (GML). Normalisé ISO en 1986, SGML (Standard Generalized Markup Language) marque un changement significatif car il introduit un langage balisé lisible aussi bien par l’homme que par les machines. Autre étape importante associée au nom de Tim Berners-Lee, HTML devient défini en 1993 dans sa première version. Le W3C est fondé en 1994 afin d’apporter une normalisation aux technologies naissantes du Web. Le format XML (eXtensible Markup Language) émerge en 1996 et prend rapidement le pas sur SGML. Publié à partir de 1996 le format DTD (Document Type Definition) permet de fixer l’usage des balises des documents SGML et XML. Le format XMLS est publié en 2001 afin de rendre plus aisément vérifiable qu’avec DTD la validité des documents XML. Le format pilier du web sémantique RDF est défini en 1996 par le W3C. Analogue dans ses fonctionnalités à XML mais plus léger, le format JSON (Javascript Object Notation) est créé en 2002.

Intéressons nous maintenant si vous le voulez bien aux formats spécifiques des archives et à leur évolution. La mise au point du format EAD (Encoded Archival Description) publié en 1993 marque les débuts de l’informatisation de ces institutions. Le format complémentaire EAC-CPF (Encoded Archival Context – Corporate bodies, Persons, Families) visant à normaliser les notices d’autorités et le contexte de création des archives est créé en 2004.

CDWA et ou VRA Core émergent de 1973 aux années 90 dans le but de normaliser les pratiques et d’informatiser les inventaires. Les formats web de données OWL sont mis au point à partir des années 2010 et apparaissent de nos jours préférés à XMLS. Les ontologies élaborées collaborativement sous git et associés à un site web de documentation confèrent aux ontologies un aspect plus lisible et plus aisément évolutif.

Des spécifications légères tels que Dublin Core et ses 15 éléments ou bien Friends Of A Friend voient le jour respectivement en 1995 et en 2000 dans le but de décrire de manière basique les contenus des pages du web. Il s’agit de signaler des pages aux moteurs du web et d’éventuellement faciliter les échanges de descriptions entre logiciels.

Ces formats passent d’HTML à XMLS pour devenir aisément édités sous forme d’ontologie. Quelques formats de métadonnées professionnels, ou bien concernant un public à la recherche de simplification sont ici évoqués.

  • Henriette Avram : Lien
  • Metadata Standards Crosswalk, Getty : Lien
  • IBM Introduces the Generalized Markup Language (GML) and SGML — Fundamental Building Blocks in the Development of Computerized Page Formatting : Lien

1. Les archives, de EAD à RIC

Les documents d’archives se distinguent expressément des documents de bibliothèques car ceux-ci ne sont généralement pas publiés, ne sont pas toujours décrits au niveau item mais restent liés entre eux par leur appartenance à un fonds, par leur stockage en rayons, boîtes et dossiers adaptés. Les fonds résultent de l’activité de personnes et familles, d’organisations (entreprises, associations, syndicats, partis politiques) et de l’activité d’archivistes. Le contexte de création, de classement et de préservation des enregistrements doit être finement décrit.

Développé en 1993 à Berkeley, le format EAD (Encoded Archival Description) spécifié en XMLS est utilisé en France par les archives nationales et départementales, par certaines bibliothèques dont la BnF et certains musées pour décrire des objets d’archives tels que des manuscrits, des cartes, des œuvres physiques rangées dans des rayons et des cartons et appartenant à des fonds. Le format permet également la description d’objets numériques. La DTD EAD possède 146 éléments, dont 8 sont obligatoires. C’est donc un format peu contraignant mais assez riche pour décrire un fonds en suivant la norme internationale de description archivistique ISAD(G).

L’AAS développe en 2003 le format complémentaire descriptif des autorités EAC-CPF (Encoded Archival Context – Corporate Bodies, Persons and Families) dédié à la description des notices d’autorités. Ce format est dédié à l’encodage de l’information concernant les créateurs de documents d’archives. Il donne lieu à la norme internationale ISAAR(CPF). En effet, décrire les archives implique de fournir des informations sur les circonstances entourant leur production et leur utilisation ce qui contribue à établir l’authenticité des documents.

Records in Contexts (RIC) est un projet de norme de description archivistique basé sur un modèle conceptuel et mis en consultation en 2016 par l’ICA. L’intégration des quatre normes archivistiques existantes ISAD(G), ISAAR(CPF), ISDF descriptive des fonctions et ISDIAH descriptive des institutions de conservation des archives est envisagée. Le modèle conceptuel nommé RIC-CM donne lieu à l’ontologie RIC-O accessible via GitHub. Ce n’est semble-t-il pas sans réticences que toute évolution semble envisagée dans un métier dont la raison d’être est la préservation.

2. Les bibliothèques et musées, de MARC à FRBR, RDA et LRM

Les bibliothèques manipulent des objets physiques ou numériques édités qu’il s’agit de décrire, localiser, prêter et remettre en rayon. MARC est utilisé par les bibliothèques pour encoder les métadonnées des objets qu’elles collectent, tels que les livres, les périodiques, les journaux et articles divers. Publié en 1968 par la Bibliothèque du Congrès, normalisé ISO 2709 en 1973, le format MARC (MAchine Readable Cataloging) nécessite l’utilisation d’un logiciel dédié pour être lu.

Les champs et les sous-champs sont identifiés à l’aide d’un code à 3 chiffres suivi d’une lettre. Le format MARC a donné naissance à un grand nombre de variantes nationales et internationales parmi lesquelles on peut citer INTERMARC utilisé par la BNF (Bibliothèque Nationale de France) depuis 1974, UNIMARC créé par l’IFLA (International Federation of Library Associations and Institutions) en 1977, MARC 21 publié en 1994 par la Bibliothèque du Congrès.

Ces formats ont ensuite été déclinés en schémas XML en vue d’en faciliter la lecture humaine directe et les échanges entre organismes et logiciels. Créé en 1999 par le ministère de la Culture français, BiblioML retranscrit UNIMARC en XML; AuthoritiesML complète le format. Publié en 2002 par la Bibliothèque du Congrès, le format MARCXML retranscrit MARC 21 en XML.

Fortement influencé par le modèle FRBR (Functional Requirements for Bibliographic Records) produit par l’IFLA de 1992 à 1995, la Bibliothèque du Congrès propose à partir de 2012 BIBFRAME (Bibliographic Framework) disponible au format web de données en OWL RDF. L’objectif est à terme de remplacer les formats MARC et d’en renouveler les possibilités ainsi que les possibilités d’évolution. La Bibliothèque royale de Suède devient la première en 2018 à adopter le standard. D’autres adaptations du modèles sont Essential FRBR et FaBio, deux ontologies produites par l’organisme SPAR Ontologies. Le format MADS/RDF sur lequel nous reviendrons vise à décrire les notices d’autorités.

Les membres du groupe CIDOC-CRM, une autre ontologie dédiée à la description des objets des musées et de l’archéologie s’emparent de FRBR pour le décliner en FRBRoo de 2015 à 2017, le oo signifie object oriented. Du côté des bibliothèques, l’IFLA publie en 2017 un nouveau modèle de référence nommé LRM pour Library Reference Model visant à unifier les spécifications fonctionnelles des notices bibliographiques (FRBR), les fonctionnalités requises des données d’autorité (FRAD), les fonctionnalités requises des données d’autorité matière (FRSAD). La publication de ce modèle engendre en France à l’initiative de l’ABES et de la BNF le programme de Transition Bibliographique. Le CIDOC-CRM décline en 2020 le modèle LRM en LRMoo.

Le code RDA-FR est la transposition française du code RDA (Resource Description and Access), code de catalogage anglo-saxon à vocation internationale paru en 2010 et révisé en 2019. Dans le cadre de l’Afnor, le groupe Normalisation « RDA en France » de la Transition bibliographique a été mandaté pour adapter le nouveau code de catalogage aux pratiques et aux spécificités françaises. RDA-FR remplace progressivement les normes Afnor. Il s’appuie sur le modèle IFLA LRM (Library Reference Model) et définit une nouvelle approche du catalogage adaptée à l’environnement actuel des bibliothèques, dominé par le web. Il donne lieu en France au mouvement Transition bibliographique lancé en 2015.

3. Les utilisateurs avancés : MODS et MADS

Développé en 2002 par la Bibliothèque du Congrès, le format XML MODS (Metadata Object Description Schema) intègre les principaux champs de MARC dans des balises explicites, ce qui facilite la lecture des métadonnées par des non-spécialistes du catalogage. MODS se veut un compromis entre la complexité du format MARC21 et l’extrême simplicité du jeu de métadonnées Dublin Core. Ce format évolue régulièrement, la version 3.4 est publiée en 2010. Une version en OWL est publiée en 2018. Le format MODS se montre adapté aux échanges de métadonnées. Le protocole OAI-PMH est susceptible d’intégrer MODS aussi bien que DC. Le format spécifiquement dédié aux échanges METS se montre également compatible, tout comme les gestionnaires de références bibliographiques JabRef ou Zotero.

Le format XML compagnon MADS (Metadata Authority Description Schema) rend possible la description standardisée et simplifiée des autorités (personnes, organisations, sujets, localisations géographiques, etc) rencontrées en institutions culturelles. MADS se trouve décliné en RDF et OWL depuis 2012. Des notices d’autorité peuvent résulter de la concaténation de plusieurs descripteurs, chacun susceptible d’exister sous forme d’autorité indépendante. La concaténation d’un nom et d’un titre “Morrison, Toni. Beloved” est possible dans madsrdf:NameTitle. Un descripteur hiérarchique géographique connu en MADS/RDF par madsrdf:HierarchicalGeographic résulte de la concaténation de descripteurs simples comme par exemple dans “France–Meurthe et Moselle–Nancy”. “United States–History–Civil War, 1861-1865,” peut être renseigné dans madsrdf:ComplexSubject.

4. Autres formats de métadonnées descriptives

Voici des liens vers quelques formats classés par domaine d’application.

4.1 METS

METS (Metadata Encoding and Transmission Standard) est un standard XML de métadonnées créé en 2001 à l’initiative de la Digital Library Federation dédié à l’échange de métadonnées et de données numériques. Il vise à réunir dans un même fichier XML toutes les métadonnées nécessaires à la description d’un document numérique, textuel ou graphique. Majoritairement utilisé par les institutions patrimoniales pour la préservation à long terme d’objets numériques, METS est maintenu actuellement par un groupe d’experts internationaux, le METS Editorial Board, et hébergé par la Bibliothèque du Congrès.

Le champ Descriptive metadata (dmdSec) contient les métadonnées descriptives de l’objet. Des schémas externes comme Dublin Core simples et qualifiés, MARCXML, MODS, EAD, peuvent être utilisés. On peut aussi intégrer des métadonnées binaires telles que MARC. Cette section est facultative et répétable.

  • METS (Metadata Encoding and Transmission Standard), sur ce blog : Lien

4.2 Quelques autres ontologies

Des ontologies sont mises au point à parti des années 2000. Elles visent à décrire des objets de toutes sortes. Leur formalisme rendu public facilite les échanges de métadonnées entre systèmes distants. Parmi les plus employées, il est possible de noter Dublin Core, Friend Of A Friend (FOAF), The Bibliographic Ontology (bibo), schema.org, wikidata, etc.

En conclusion

Puissamment liés au poids de leurs histoires et traditions, on note un fort attachement des institutions et des producteurs de données à leurs formats de métadonnées. Si MARC, EAD, EAC-CPF se montrent employés depuis de nombreuses années pour décrire des centaines de millions d’objets physiques et numériques, d’autres formats sont apparus récemment. Ils trouvant des applications dans d’autres domaines. MODS et MADS proposent un niveau de description standardisé des objets des bibliothèques, archives et musées d’un niveau de complexité intermédiaire. Beaucoup plus léger, Dublin Core doublé de FOAF et complété éventuellement de Schema rendent possible la description par des chercheurs et des techniciens rapidement formés de la plupart des documents numériques et physiques, des personnes et des organisations auteurs d’œuvres, des papiers, livres et artefacts diverses.

  • Metadata Standards Crosswalk, Getty, passerelle entre formats professionnels des archives, bibliothèques et musées : Lien

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s