Articles tagués OCLC

PREMIS (Data Dictionary for Preservation Metadata)

Les métadonnées administratives (ou de gestion) contiennent l’information de préservation (ou de pérennisation) décrite dans le modèle OAIS. PREMIS est un format de métadonnées largement utilisé dans le monde des bibliothèques et de l’édition numérique qui permet de contenir non seulement les métadonnées administratives mais aussi les métadonnées descriptives. 

Les métadonnées administratives décrivent les objets numériques au niveau physique : nom, format, empreinte, lieu de stockage, matériels et logiciels nécessaires pour la lecture, relations avec d’autres objets numériques. Elles décrivent les évènements de l’archivage tels que les dates de versement, de réplication, de suppression ou de migration des objets, de même que des actions visant à vérifier la validité des format, à tester l’absence de virus ou la fixité des objets dans le temps, de même que les droits d’utilisation et les licences associés aux objets, les personnes, organismes et logiciels jouant un rôle.

PREMIS fournit un cadre de travail, un modèle de données, un schéma XML extensible, ainsi qu’un glossaire et des recommandations d’implémentation. Publié à l’initiative de l’OCLC (Online Computer Library Center) et du RLG (Research Library Group), une première version voit le jour en 2003; la version courante date de Janvier 2011. Le site est hébergé par la Bibliothèque du Congrès.

5 entités correspondant à autant d’unités sémantiques sont définies. Le dictionnaire comprend pour chaque entité des éléments répartis par groupe, décrits avec des exemples et des notes d’application, des éléments cœurs dont l’emploi est obligatoire sont définis.

Entité Objet

3 types d’objets sont distingués :
–  Les objets « fichiers » correspondent aux objets qui font sens de manière isolée. Il s’agit par exemple d’un fichier PDF ou JPEG.
–  Les objets « représentation » sont des objets composites qui nécessitent la juxtaposition de plusieurs types de données pour prendre sens. Une page HTML par exemple peut nécessiter un fichier HTML, un fichier CSS, des données javascript et des images pour être lisible.
–  Les objets « bitstream » sont les composantes des objets composites. La bande son d’un film, l’image d’une page HTML par exemple.

L’entité « Objet » définit 95 éléments dont 8 sont obligatoires. Les principaux éléments sont l’identifiant de l’objet (objectIdentifier), le niveau de préservation souhaité (preservationLevel). Certains éléments concernent les caractéristiques physiques de l’objet, telles que la taille (size), le format (format), le nom initial (originalName), le lieu de stockage (storage), la fixité (fixity). La fixité, analysée à l’aide de l’empreinte, permet de vérifier la stabilité de constitution de l’objet entre deux dates. D’autres éléments concernent l’environnement de l’objet, en particulier les dépendances pour la lecture en matière logicielle ou matérielle, les relations avec d’autres objets.

Entité Evènement

Un évènement dans une archive consiste en une action aboutissant à la modification durable de un ou plusieurs objets. Des exemples sont la création, l’ingestion, la réplication ou la suppression d’un objet, la vérification de la fixité, la validation d’un format, la recherche de virus dans les objets.  Des noms d’agent – personne, organisme ou logiciel – et leur rôle dans l’évènement peuvent être spécifiés. L’entité contient 17 éléments répartis en 13 groupes. L’identifiant d’un évènement, son type et sa date sont obligatoires. Un index par type d’évènement fournit une liste des actions importantes de l’archive.

Entité Agent

5 éléments répartis en 3 groupes permettent de décrire les personnes, les organismes ou les logiciels qui jouent un rôle actif dans d’autres entités tels que Evènements ou Droits. L’identifiant de l’agent, son nom et son rôle sont obligatoires.

Entité Droits

18 éléments répartis en 2 groupes permettent de détailler les droits associés à l’objet incluant les licences, les restrictions d’usage, les agents impliqués et leur rôle, ainsi que le statut juridique de l’objet.

Entité Intellectuel

Contrairement aux autres entités, l’entité Intellectuel ne contient pas d’information administrative mais l’information de description. PREMIS préconise  l’emploi de Dublin Core, MARCXML ou MODS en extension de PREMIS. L’identifiant de l’objet est obligatoire pour cette entité.

En conclusion

Maintenu actuellement par la Bibliothèque du Congrès, le format de métadonnées administratives PREMIS comprend plus de 130 éléments nécessaires pour gérer la préservation sur le long terme des objets numériques. PREMIS est souvent utilisé en extension de METS (Metadata Encoding and Transmission Standard), un format conteneur qui sera présenté dans le post suivant. Des travaux en cours conduisent au développement d’une ontologie OWL de PREMIS, facilitant l’utilisation du format pour l’intégration au web sémantique.

Site web : http://www.loc.gov/standards/premis/
PREMIS :http://www.loc.gov/standards/premis/v2/premis-2-1.pdf
Version simplifiée : http://www.loc.gov/standards/premis/understanding-premis.pdf
Exemple : http://www.loc.gov/standards/premis/louis-2-1.xml
Survol en français : http://www.loc.gov/standards/mets/METSOverview.v2_fr.html
Ontologie OWL de PREMIS : http://duraspace.org/premis-loc-preservation-metadata-maintenance-activity-owl-ontology-available-review

Publicités

, , , ,

Poster un commentaire

Dublin Core

Les métadonnées descriptives contiennent l’Information de description telle que définie dans le modèle OAIS. Elles comprennent notamment le titre, les auteurs, le résumé, les mots-clés, le code de classement, des dates, l’identifiant des objets. Dublin Core permet la description d’objets numériques ou physiques de toutes sortes. C’est un format de métadonnées très souple et très largement employé.

Elaboré à l’initiative de l’OCLC (Online Computer Library Center) et du  NCSA (National Center for Supercomputing Applications) en 1995 lors d’une réunion de travail à Dublin (Ohio), le format est maintenu par le DCMI (Dublin Core Metadata Initiative). Normalisé iso 15836 en 2003, le langage est régulièrement mis à jour. Dublin Core définit des éléments dont l’emploi est facultatif et qui peuvent être répétés. Les 15 premiers, spécifiés dès 2001, constituent le “Dublin Core simple”. La version actuelle  nommée “Dublin Core qualifié” comprend 7 éléments supplémentaires et autorise l’emploi de qualifiants (qualifiers en anglais) qui viennent préciser le sens, la syntaxe ou le vocabulaire de certains éléments.

Les 22 éléments du Dublin Core qualifié (2011) :

Elément

Description

Title Titre du document : il s’agit a priori du titre principal du document.
Subject Sujet et mots-clés : mots-clés, phrases de résumé, ou codes de classement. Il est préférable d’utiliser des mots-clés choisis dans le cadre d’une politique de classement. Par exemple, on peut utiliser les codages de la bibliothèque du congrès (LCSH et LCC), le vocabulaire médical (MESH), ou les notations décimales des bibliothécaires (DDC et UDC).
Description Description du document : résumé, table des matières, ou texte libre.
Type Nature ou genre du contenu : grandes catégories de document. Il est recommandé d’utiliser des termes clairement définis au sein de l’organisme. Par exemple, le Dublin Core définit différents types dans le vocabulaire DCMI Types.
Source Ressource dont dérive le document : le document peut découler en totalité ou en partie de la ressource en question. Il est recommandé d’utiliser une dénomination formelle des ressources, par exemple leur URI.
Relation Lien vers une ressource liée : il est recommandé d’utiliser une dénomination formelle des ressources, par exemple leur URI.
Coverage Portée du document : la portée inclut un domaine géographique, un laps de temps, ou une juridiction (nom d’une entité administrative). Il est recommandé d’utiliser des représentations normalisées de ces types de données, par exemple TGN (Thesaurus of Geographic Names, un dictionnaire de noms de lieux), ISO3166, Point ou Box pour la portée spatiale, Period ou W3CDTF pour la portée temporelle.
Creator Créateur du document : nom de la personne, de l’organisme ou du service à l’origine de la rédaction du document.
Publisher Editeur du document : nom de la personne, de l’organisme ou du service à l’origine de la publication du document.
Contributor Contributeur au document : nom d’une personne, d’un organisme ou d’un service qui contribue ou a contribué à l’élaboration du document.
Rights Droits relatifs à la ressource : permet de donner des informations sur le statut des droits du document, par exemple la présence d’un copyright, ou un lien vers le détenteur des droits. L’absence de cette propriété ne présume pas que le document est libre de droits.
Date Date d’un événement dans le cycle de vie du document : il peut s’agir par exemple de la date de création ou de la date de mise à disposition. Il est recommandé de spécifier la date au format W3CDTF (AAAA-MM-JJ).
Format Format du document : format physique ou électronique du document. Par exemple, type de média ou dimensions (taille, durée). On peut spécifier le matériel et le logiciel nécessaires pour lire le document. Il est recommandé d’utiliser des termes clairement définis, par exemple le type MIME.
Identifier Identificateur non ambigu : il est recommandé d’utiliser un système de référencement précis, par exemple les URI ou les numéros ISBN.
Language Langue du document : il est recommandé d’utiliser un code de langue conforme au format RFC4646.
Audience Public du document : ciblé par l’auteur ou l’éditeur
Provenance Provenance : indique tout changement de propriétaire ou de détenteur du document
RightsHolder Détenteur des droits : personne ou organisme gestionnaire ou propriétaire des droits
InstructionalMethod Méthode d’instruction : pour des ressources de type pédagogique
AccrualMethod Méthode d’acquisition : telle qu’un dépôt ou un achat
AccrualPeriodicity Périodicité d’acquisition : fréquence à laquelle des items sont ajoutés à une collection
AccrualPolicy Politique d’acquisition : concernant l’ajout d’items à une collection

Les qualifiants sont de 2 sortes :
– L’affinement d’élément  permet de préciser le sens d’un élément en le rendant plus spécifique.  Ainsi  l’élément Date peut être affiné à l’aide des qualifiants Created, Valid, Available, Issued, Modified, dateAccepted, dateCopyrighted, dateSubmitted.
– Le schéma d’encodage permet de préciser la syntaxe ou le vocabulaire employé. Ainsi W3CDTF peut préciser la syntaxe de l’élément Date, DDC (Dewey Decimal Classification) permet de spécifier le vocabulaire de Subject, le vocabulaire « DCMI Type » peut être employé pour l’élément Type.

L’implémentation de Dublin Core est possible dans un fichier au format texte ou dans des fichiers balisés tels que HTML, XHTML, XML ou RDF. Les modalités d’intégration font l’objet de recommandations du DCMI. Voici quelques exemples d’utilisation incluant des commentaires.

Dublin Core étendant RDF, un des langages du web sémantique :

<?xml version="1.0"?>
 <!DOCTYPE rdf:RDF PUBLIC "-//DUBLIN CORE//DCMES DTD 2002/07/31//EN"
 "http://dublincore.org/documents/2002/07/31/dcmes-xml/dcmes-xml-dtd.dtd">
 <!-- Déclaration des espaces de nom RDF et DC -->  
 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
 xmlns:dc ="http://purl.org/dc/elements/1.1/">
 <!-- Métadonnées Dublin Core -->  
 <rdf:Description rdf:about="http://dublincore.org/">
 <dc:title>Dublin Core Metadata Initiative - Home Page</dc:title>
 <dc:description>The Dublin Core Metadata Initiative Web site.</dc:description>
 <dc:date>2001-01-16</dc:date>
 <dc:format>text/html</dc:format>
 <dc:language>en</dc:language>
 <dc:contributor>The Dublin Core Metadata Initiative</dc:contributor>
 <dc:title xml:lang="fr">L'Initiative de métadonnées du Dublin Core</dc:title>
 <dc:title xml:lang="de">Der Dublin-Core Metadata-Diskussionen</dc:title>
 </rdf:Description>
 </rdf:RDF>

Dublin Core qualifié étendant XHTML :

Les métadonnées prennent place dans les balises meta de l’en-tête. Les espaces de noms DC et DCTERMS sont préalablement déclarés. L’exemple suivant est un extrait du code source de http://hdl.handle.net/2042/15134. Les métadonnées décrivent un fichier pdf provenant de l’archive DSpace / I-Revues de l’INIST contenant un article de la revue Hermès.

<?xml version="1.0" encoding="UTF-8"?>
 <!-- Déclaration du type de document -->
 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
 <html xmlns:xlink="http://www.w3.org/TR/xlink/" xmlns:mods="http://www.loc.gov/mods/v3" xmlns:dim="http://www.dspace.org/xmlns/dspace/dim" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:mets="http://www.loc.gov/METS/" xmlns:dri="http://di.tamu.edu/DRI/1.0/" xmlns:i18n="http://apache.org/cocoon/i18n/2.1">
 <head>
 <meta content="text/html; charset=UTF-8" http-equiv="Content-Type" />
 <meta name="Generator" content="DSpace 1.7.0" />
 <title>Psychanalyse et politique in Individus et politique.</title>
 <!-- Déclaration des schémas DC et DCTERMS -->
 <link rel="schema.DCTERMS" href="http://purl.org/dc/terms/" />
 <link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" />
 <!-- Métadonnées au format Dublin Core -->
 <meta name="DC.creator" content="ASSOUN, P.-C." xml:lang="-" />
 <meta name="DC.creator" content="FROMM, Erich" xml:lang="-" />
 <!-- L’emploi du format W3CDTF est précisé pour la date -->
 <meta name="DCTERMS.dateAccepted" content="2008-02-15T09:17:51Z" scheme="DCTERMS.W3CDTF" />
 <meta name="DCTERMS.available" content="2008-02-15T09:17:51Z" scheme="DCTERMS.W3CDTF" />
 <meta name="DCTERMS.issued" content="1989" xml:lang="en_US" scheme="DCTERMS.W3CDTF" />
 <meta name="DC.identifier" content="http://hdl.handle.net/2042/15134" scheme="DCTERMS.URI" />
 <meta name="DCTERMS.abstract" content="Recueil de 8 articles. La correspondance Freud-Einstein : &quot; Pourquoi la guerre &quot; (1933), commentée par F. FORNARI et P.-C. ASSOUN, qui est l'auteur d'autre part de &quot; Freudisme et indifférentisme politique : objet de l'idéal et objet de la démocratie &quot;. De E. FROMM : &quot; Méthode et tâche d'une psychologie analytique &quot; (1932). D'autres articles : Psychanalyse et politique sociale| Approche communicationnelle de l'inconscient| Le discours analytique et la politique" xml:lang="fr" />
 <meta name="DCTERMS.extent" content="28847 bytes" />
 <meta name="DC.format" content="application/pdf" />
 <meta name="DC.language" content="fr" xml:lang="en_US" scheme="DCTERMS.RFC1766" />
 <meta name="DC.publisher" content="CNRS Editions, Paris (FRA)" xml:lang="en_US" />
 <meta name="DC.relation" content="http://irevues.inist.fr/utilisation" xml:lang="en_US" />
 <meta name="DC.source" content="Hermès (Paris.1988) [ISSN 0767-9513], 1989, N° 5-6; p. 255-366" xml:lang="en_US" />
 <!-- L’élément subject est répété -->
 <meta name="DC.subject" content="Politique" xml:lang="fr" />
 <meta name="DC.subject" content="Psychanalyse" xml:lang="fr" />
 <meta name="DC.subject" content="Psychosociologie" xml:lang="fr" />
 <meta name="DC.subject" content="Politics" xml:lang="en" />
 <meta name="DC.subject" content="Psychoanalysis" xml:lang="en" />
 <meta name="DC.subject" content="Psychosociology" xml:lang="en" />
 <meta name="DC.title" content="Psychanalyse et politique in Individus et politique." xml:lang="fr" />
 <meta name="DC.type" content="Article" xml:lang="en_US" />
 <!-- Métadonnées non Dublin Core -->
 <meta content="CNRS Editions, Paris (FRA)" name="citation_publisher" />
 <meta content="http://documents.irevues.inist.fr/handle/2042/15134" name="citation_abstract_html_url" />
 <meta content="Psychanalyse et politique in Individus et politique." name="citation_title" />
 <meta content="Article" name="citation_keywords" />
 <meta content="ASSOUN, P.-C.; FROMM, Erich" name="citation_authors" />
 <meta content="fr" name="citation_language" />
 <meta content="http://documents.irevues.inist.fr/bitstream/2042/15134/1/HERMES_1989_5-6_255_P3.pdf" name="citation_pdf_url" />
 <meta content="1989" name="citation_date" />
 </head>
 <body>
 <div>(…)</div>
 </body>
 </html>

OAI-PMH :

Dublin Core trouve une application majeure avec OAI-PMH (Open Archive Initiative – Protocol for Metadata Harvesting). Le protocole permet les échanges de métadonnées entre entrepôts (archives numériques ouvertes, systèmes d’édition électronique ouverts) et moissonneurs. Ces derniers réccoltent les métadonnées à l’aide d’une requête http dont le formalisme est défini dans le protocole. La réponse des entrepôts est un fichier XML au format OAI-PMH incluant les métadonnées Dublin Core. Isidore (CNRS) ou Europeana(Union Européenne) fonctionnent sur ce principe et offrent des fonctionnalités de recherche dans les domaines des sciences humaines et sociales.

Fichier OAI-PMH correspondant à l’exemple vu précédemment. Visualiser le code source de http://documents.irevues.inist.fr/dspace-oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:documents.irevues.inist.fr:2042/15134 .

<?xml version="1.0" encoding="UTF-8" ?>
 <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
 <responseDate>2011-09-24T07:32:39Z</responseDate>
 <request metadataPrefix="oai_dc" verb="GetRecord" identifier="oai:documents.irevues.inist.fr:2042/15134"> http://documents.irevues.inist.fr/dspace-oai/request </request>
 <GetRecord>
 <record>
 <header>
 <identifier>oai:documents.irevues.inist.fr:2042/15134</identifier>
 <datestamp>2009-11-20T06:22:58Z</datestamp>
 <setSpec>hdl_2042_15095</setSpec>
 </header>
 <metadata>
 <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
 <dc:title> Psychanalyse et politique in Individus et politique. </dc:title>
 <dc:creator>ASSOUN, P.-C.</dc:creator>
 <dc:creator>FROMM, Erich</dc:creator>
 <dc:subject>Politique</dc:subject>
 <dc:subject>Psychanalyse</dc:subject>
 <dc:subject>Psychosociologie</dc:subject>
 <dc:subject>Démocratie</dc:subject>
 <dc:subject>Guerre</dc:subject>
 <dc:subject>Nucléaire</dc:subject>
 <dc:subject>Communication</dc:subject>
 <dc:subject>Freud, S.</dc:subject>
 <dc:subject>Einstein, A.</dc:subject>
 <dc:subject>Fromm, E.</dc:subject>
 <dc:subject>Philosophie du droit</dc:subject>
 <dc:subject>Politics</dc:subject>
 <dc:subject>Psychoanalysis</dc:subject>
 <dc:subject>Psychosociology</dc:subject>
 <dc:subject>Democracy</dc:subject>
 <dc:subject>War</dc:subject>
 <dc:subject>Nuclear</dc:subject>
 <dc:subject>Communication</dc:subject>
 <dc:subject>Freud, S.</dc:subject>
 <dc:subject>Einstein, A.</dc:subject>
 <dc:subject>Fromm, E.</dc:subject>
 <dc:subject>Philosophy of law</dc:subject>
 <dc:description> Recueil de 8 articles. La correspondance Freud-Einstein : " Pourquoi la guerre " (1933), commentée par F. FORNARI et P.-C. ASSOUN, qui est l'auteur d'autre part de " Freudisme et indifférentisme politique : objet de l'idéal et objet de la démocratie ". De E. FROMM : " Méthode et tâche d'une psychologie analytique " (1932). D'autres articles : Psychanalyse et politique sociale| Approche communicationnelle de l'inconscient| Le discours analytique et la politique </dc:description>
 <dc:publisher>CNRS Editions, Paris (FRA)</dc:publisher>
 <dc:date>2008-02-15T09:17:51Z</dc:date>
 <dc:date>2008-02-15T09:17:51Z</dc:date>
 <dc:date>1989</dc:date>
 <dc:type>Article</dc:type>
 <dc:format>28847 bytes</dc:format>
 <dc:format>application/pdf</dc:format>
 <dc:identifier>http://hdl.handle.net/2042/15134</dc:identifier>
 <dc:source> Hermès (Paris.1988) [ISSN 0767-9513], 1989, N° 5-6; p. 255-366 </dc:source>
 <dc:language>fr</dc:language>
 <dc:rights>http://irevues.inist.fr/utilisation</dc:rights>
 </oai_dc:dc>
 </metadata>
 </record>
 </GetRecord>
 </OAI-PMH>

Le DCMI : http://dublincore.org/
Dublin Core et HTML/XHTML : http://dublincore.org/documents/dc-html/
Dublin Core et RDF/XML : http://dublincore.org/documents/dcq-rdf-xml/
DCMI – Wiki Paris Descartes : http://wiki.univ-paris5.fr/wiki/DCMI
Métadonnées et Dublin Core – Openweb.eu.org : http://openweb.eu.org/articles/dublin_core
Dublin core : théorie et applications, C. Morel-Pair, 2009 : http://mediadix.u-paris10.fr/stockage_doc/metadonneesbibnum/metasDCMorelPair.pdf

En conclusion :

L’emploi de Dublin Core est largement répandu dans les applications de l’édition électronique, des bibliothèques numériques et de l’archivage, assurant une description souple et précise des objets numériques (page HTML, article, fichier PDF, image, vidéo…). Le langage trouve ses principales applications dans le référencement des objets par les moteurs de recherche du web et par les moissonneurs OAI-PMH.

, , , , , ,

1 commentaire