Articles tagués Bibliothèque du Congrès

METS (Metadata Encoding and Transmission Standard)

METS  est un exemple de format conteneur permettant de rassembler en un fichier unique des données du type objet numérique et des métadonnées. Ce format XML qui trouve une application remarquable dans le signalement des thèses françaises facilite les échanges d’information entre organismes et logiciels.

Initiée par la Fédération des Bibliothèques numériques américaine – DLF (Digital Library Federation), la première version validée date de 2001, la version actuelle (2.0) date d’avril 2010. Le site du format [1] hébergé par la Bibliothèque du Congrès des Etats-Unis fournit toutes les informations officielles.

Le schéma XML METS permet l’encodage des métadonnées descriptives, de gestion et de structure des objets numériques. L’application principale concerne l’archivage pérenne des données numériques, lors des phases de versement, d’archivage ou de diffusion des paquets d’informations, pour reprendre la terminologie du modèle OAIS. Les composantes des objets sont identifiées à l’aide d’un lien interne ou d’un URI, elles peuvent, si souhaité, être inclues au fichier sous forme de données binaires.

Le schéma METS [2] comprend 7 sections dont une seule (structMap) est obligatoire :

Header (metsHdr) : Cette section facultative et répétable contient les métadonnées concernant le document METS lui-même telles que le créateur, le logiciel d’édition employé.
Descriptive metadata (dmdSec) contient les métadonnées descriptives de l’objet. Des schémas externes comme Dublin Core simples et qualifiés, MARCXML, MODS, EAD, peuvent être utilisés. On peut aussi intégrer des métadonnées binaires telles que MARC. Cette section est facultative et répétable.
Administrative metadata (amdSec) contient les métadonnées de gestion correspondant à l’Information de pérennisation du modèle OAIS. Cette section est facultative et répétable pour chaque composante d’un objet numérique. Elle peut contenir un ou plusieurs éléments renseignés avec Technical metadata (techMD), Source metadata (sourceMD), Rights metadata (rightsMD), Digital Provenance metadata (digiprovMD). Ainsi, le format MIX spécifique des images étend la section techMD. Les éléments PREMIS peuvent être inclus dans amdSec ou être répartis dans les sections de METS [3]. Des redondances entre METS et PREMIS sont possibles.
File Section (fileSec) liste les fichiers composantes de l’objet numérique. Les fichiers sont localisés et identifiés à l’aide d’une URL ou bien sont  physiquement présents en tant que binaire intégré au XML. Les sous-éléments fileGrp répétables permettent l’enregistrement de plusieurs versions d’un même objet. Cette section est facultative mais typiquement renseignée.
Structural Map (structMap) contient les informations concernant la hiérarchie de structure de l’objet et lie cette hiérarchie avec les fichiers. Cette section est la seule obligatoire.
Structural Links (structLink) renseigne les hyperliens entre composantes de l’objet. Cette section est facultative et répétable.
Behavior (behaviorSec). Cette section facultative et répétable contient les informations concernant les programmes nécessaires à la lecture de l’objet.

Des profils de schémas validés [4]  produits par des organismes utilisateurs peuvent être utilisés pour décrire toutes sortes d’objets numériques tels que des références bibliographiques, des fichiers PDF, des photographies, des partitions, des enregistrements audio ou vidéo, des collections diverses. Des exemples [5], des présentations [6] de même que des outils sont disponibles sur le site.

Un schéma METS TEF 2.0 a été développé par l’ABES en 2006, et est utilisé pour signaler les métadonnées des thèses françaises [7].

METS est implémenté dans différentes applications et outils d’archivage et d’édition numérique, notamment dans des logiciels DSpace, Fedora, JHove, OJS, Mnesys Archives.

[1] METS à la Bibliothèque du Congrès : http://www.loc.gov/standards/mets/
[2] Survol et Tutoriel : http://www.loc.gov/standards/mets/METSOverview.v2.html
[3] METS et PREMIS : http://www.loc.gov/standards/premis/guidelines-premismets.pdf
[4] Profils de schémas METS : http://www.loc.gov/standards/mets/mets-profiles.html
[5] Des exemples de fichiers METS : http://www.loc.gov/standards/mets/mets-examples.htmlhttp://digitalassets.lib.berkeley.edu/techreports/ucb/mets/cuengi_10_1_00025320.xml
[6] Présentation : http://www.loc.gov/standards/mets/presentations/METS.ppt
[7] TEF 2.0 : http://www.abes.fr/abes/documents/tef/recommandation/index.html

Publicités

, , , , ,

Poster un commentaire

PREMIS (Data Dictionary for Preservation Metadata)

Les métadonnées administratives (ou de gestion) contiennent l’information de préservation (ou de pérennisation) décrite dans le modèle OAIS. PREMIS est un format de métadonnées largement utilisé dans le monde des bibliothèques et de l’édition numérique qui permet de contenir non seulement les métadonnées administratives mais aussi les métadonnées descriptives. 

Les métadonnées administratives décrivent les objets numériques au niveau physique : nom, format, empreinte, lieu de stockage, matériels et logiciels nécessaires pour la lecture, relations avec d’autres objets numériques. Elles décrivent les évènements de l’archivage tels que les dates de versement, de réplication, de suppression ou de migration des objets, de même que des actions visant à vérifier la validité des format, à tester l’absence de virus ou la fixité des objets dans le temps, de même que les droits d’utilisation et les licences associés aux objets, les personnes, organismes et logiciels jouant un rôle.

PREMIS fournit un cadre de travail, un modèle de données, un schéma XML extensible, ainsi qu’un glossaire et des recommandations d’implémentation. Publié à l’initiative de l’OCLC (Online Computer Library Center) et du RLG (Research Library Group), une première version voit le jour en 2003; la version courante date de Janvier 2011. Le site est hébergé par la Bibliothèque du Congrès.

5 entités correspondant à autant d’unités sémantiques sont définies. Le dictionnaire comprend pour chaque entité des éléments répartis par groupe, décrits avec des exemples et des notes d’application, des éléments cœurs dont l’emploi est obligatoire sont définis.

Entité Objet

3 types d’objets sont distingués :
–  Les objets « fichiers » correspondent aux objets qui font sens de manière isolée. Il s’agit par exemple d’un fichier PDF ou JPEG.
–  Les objets « représentation » sont des objets composites qui nécessitent la juxtaposition de plusieurs types de données pour prendre sens. Une page HTML par exemple peut nécessiter un fichier HTML, un fichier CSS, des données javascript et des images pour être lisible.
–  Les objets « bitstream » sont les composantes des objets composites. La bande son d’un film, l’image d’une page HTML par exemple.

L’entité « Objet » définit 95 éléments dont 8 sont obligatoires. Les principaux éléments sont l’identifiant de l’objet (objectIdentifier), le niveau de préservation souhaité (preservationLevel). Certains éléments concernent les caractéristiques physiques de l’objet, telles que la taille (size), le format (format), le nom initial (originalName), le lieu de stockage (storage), la fixité (fixity). La fixité, analysée à l’aide de l’empreinte, permet de vérifier la stabilité de constitution de l’objet entre deux dates. D’autres éléments concernent l’environnement de l’objet, en particulier les dépendances pour la lecture en matière logicielle ou matérielle, les relations avec d’autres objets.

Entité Evènement

Un évènement dans une archive consiste en une action aboutissant à la modification durable de un ou plusieurs objets. Des exemples sont la création, l’ingestion, la réplication ou la suppression d’un objet, la vérification de la fixité, la validation d’un format, la recherche de virus dans les objets.  Des noms d’agent – personne, organisme ou logiciel – et leur rôle dans l’évènement peuvent être spécifiés. L’entité contient 17 éléments répartis en 13 groupes. L’identifiant d’un évènement, son type et sa date sont obligatoires. Un index par type d’évènement fournit une liste des actions importantes de l’archive.

Entité Agent

5 éléments répartis en 3 groupes permettent de décrire les personnes, les organismes ou les logiciels qui jouent un rôle actif dans d’autres entités tels que Evènements ou Droits. L’identifiant de l’agent, son nom et son rôle sont obligatoires.

Entité Droits

18 éléments répartis en 2 groupes permettent de détailler les droits associés à l’objet incluant les licences, les restrictions d’usage, les agents impliqués et leur rôle, ainsi que le statut juridique de l’objet.

Entité Intellectuel

Contrairement aux autres entités, l’entité Intellectuel ne contient pas d’information administrative mais l’information de description. PREMIS préconise  l’emploi de Dublin Core, MARCXML ou MODS en extension de PREMIS. L’identifiant de l’objet est obligatoire pour cette entité.

En conclusion

Maintenu actuellement par la Bibliothèque du Congrès, le format de métadonnées administratives PREMIS comprend plus de 130 éléments nécessaires pour gérer la préservation sur le long terme des objets numériques. PREMIS est souvent utilisé en extension de METS (Metadata Encoding and Transmission Standard), un format conteneur qui sera présenté dans le post suivant. Des travaux en cours conduisent au développement d’une ontologie OWL de PREMIS, facilitant l’utilisation du format pour l’intégration au web sémantique.

Site web : http://www.loc.gov/standards/premis/
PREMIS :http://www.loc.gov/standards/premis/v2/premis-2-1.pdf
Version simplifiée : http://www.loc.gov/standards/premis/understanding-premis.pdf
Exemple : http://www.loc.gov/standards/premis/louis-2-1.xml
Survol en français : http://www.loc.gov/standards/mets/METSOverview.v2_fr.html
Ontologie OWL de PREMIS : http://duraspace.org/premis-loc-preservation-metadata-maintenance-activity-owl-ontology-available-review

, , , ,

Poster un commentaire

Les métadonnées descriptives : quelques formats spécialisés

Les métadonnées descriptives contiennent l’Information de description telle que définie dans le modèle OAIS. Elles comprennent  notamment le titre, les auteurs, le résumé, les mots-clés, le code de classement, des dates, l’identifiant des objets. De nombreux formats de métadonnées tels que  EAD, MARC ou MODS ont été développés pour répondre aux exigences rencontrées dans les métiers de l’archivage, des bibliothèques, de l’édition, des musées ou de la recherche. 

EAD (Encoded Archival Description)

EAD est utilisé en France par les archives nationales et départementales, par certaines bibliothèques dont la BNF et certains musées essentiellement pour décrire des objets physiques tels que des manuscrits, des livres, des films, des cartes, mais aussi  des objets numériques. C’est un format XML maintenu par la Bibliothèque du Congrès et par la SAA (Society of American Archivists) dont la dernière version date de 2002. Des éléments textuels des objets peuvent être incorporés aux métadonnées pour améliorer la description et faciliter les recherches.

Encoded Archival Description : Version 2002 Official Site http://www.loc.gov/ead/
Aux Archives de France : http://www.archivesdefrance.culture.gouv.fr/gerer/classement/normes-outils/ead/
BNF : http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html
Société des Archivistes Américains : http://www.archivists.org/saagroups/ead/

Les formats dérivés de MARC (MAchine Readable Cataloging)

MARC est utilisé par les bibliothèques pour encoder les métadonnées des objets physiques ou numériques qu’elles collectent, tels que les livres, les périodiques et les articles. Publié en 1968 par la Bibliothèque du Congrès, normalisé ISO 2709 en 1973, le format  nécessite l’utilisation d’un logiciel spécialisé pour être lu. Les champs et les sous-champs sont identifiés à l’aide d’un code à 3 chiffres suivi d’une lettre.

Le format MARC a donné naissance à un grand nombre de variantes nationales et internationales parmi lesquelles on peut citer INTERMARC utilisé par la BNF (Bibliothèque Nationale de France) depuis 1974, UNIMARC créé par l’IFLA (International Federation of Library Associations and Institutions) en 1977, MARC 21 publié en 1994 par la Bibliothèque du Congrès.

Ces formats ont ensuite été déclinés en schémas XML en vue de faciliter la lecture et les échanges. Créé en 1999 par le ministère de la Culture français, BiblioML retranscrit UNIMARC en XML. Publié en 2002 par la Bibliothèque du Congrès, le format MARCXML est une transcription en XML de MARC 21. Développé en 2002 par la bibliothèque du congrès également, le format MODS (Metadata Object Description Schema) intègre les principaux champs de MARC dans des balises explicites, ce qui facilite la lecture des métadonnées par des non-spécialistes du catalogage. Ce dernier format évolue régulièrement, la version 3.4 est publiée en 2010. Certaines archives exportent leurs métadonnées en MODS à l’aide de OAI-PMH.

Les formats MARC 21 : http://www.loc.gov/marc/marcdocz.html
Le format MARCXML : http://www.loc.gov/standards/marcxml/
Le format UNIMARC : http://www.ifla.org/unimarc
Le format INTERMARC :
http://www.bnf.fr/fr/professionnels/f_intermarc/s.format_intermarc_biblio.html
Le format MARCXML : http://www.loc.gov/standards/marcxml/
Exemple de fichier MARCXML – les champs MARC 21 sont transcrits dans l’attribut tag du champ controlfield, les sous-champs dans l’attribut code de subfield : http://www.loc.gov/standards/marcxml/xml/collection.xml
Le format MODS : http://www.loc.gov/standards/mods/
Exemple de fichier MODS : http://www.loc.gov/standards/mods/v3/mods99042030.xml

Autres formats de métadonnées descriptives

La diversité des objets et des usages a entraîné récemment l’émergence de nouveaux formats dont l’évolution est encore en cours; les changements de version sont fréquents. Sans prétendre à l’exhaustivité, voici des liens vers quelques formats classés par domaine d’application.

Description des autorités, personnes et organismes  :

Données démographiques et sociologiques :

Géo-localisation :

Livres,  périodiques, licences et droits de reproduction :

Ressource visuelle :

Sites archéologiques, monuments historiques :

Corpus oraux :

Données multimédias :

En conclusion :

Si les formats EAD et MARC sont employés depuis de nombreuses années pour décrire des centaines de millions d’objets physiques et numériques, de nombreux autres formats, parfois concurrents, sont apparus récemment, trouvant des applications dans de nombreux domaines. Seuls les formats adoptés par un grand nombre d’archives, supportés durablement par des institutions solides seront à même d’émerger.

, , , , , , , , , ,

Poster un commentaire