Des archives et bibliothèques traditionnelles aux entrepôts numériques

Le support numérique est venu progressivement seconder les supports traditionnels pour archiver les documents dans les institutions de mémoire que sont les archives et les bibliothèques. Les vieux lecteurs de microfilms sont partis en réserve. Des œuvres numériques s’exposent depuis les années 70 dans les musées, alors que les bibliothèques proposent un catalogue de revues lisibles via un navigateur. Si le format électronique offre de nouvelles possibilités concernant la vision et la diffusion des enregistrements d’archives, des documents de bibliothèque et œuvres d’art, la préservation sur le long terme des fichiers nécessite un ensemble de précautions particulières. Alors que la préservation des supports traditionnels est bien maîtrisée, de nouveaux savoir-faire numériques renouvellent et étendent les possibilités du classique. Des mantras émergent chez les pros : empreinte des fichiers, préservation numérique, audience ciblée, formats de métadonnées, moteurs de recherche, bases de données relationnelles et orientées graphe, web sémantique.

Depuis plusieurs centaines d’années, voire peut être depuis l’invention de l’écriture en Mésopotamie il y a plus de 5000 ans, les archives assurent l’acquisition, le stockage et la restitution sur le long terme de documents de toutes natures. S’il s’agissait alors souvent en ces époques reculées de consigner des transactions commerciales avec valeur de preuve, des correspondances, des titres de propriété, des échanges diplomatiques sur tablette d’argile, des textes fondateurs ou bien des œuvres épiques à succès apparaissent également recopiés à l’identique ou presque.

De nos jours, les archives gèrent des textes, des images et de manière plus récente des documents nativement numériques de toutes sortes – documents bureautiques, mails, images, sons, vidéos, objets 3D, pages d’un site web qui présentent bien souvent un aspect unique. Les bibliothèques de leur côté acquièrent et prêtent les documents publiés en multiples exemplaires. Elles se font médiathèques et distribuent en ligne leurs catalogues et une partie de leurs contenus, assurent localement des animations, diversifient leurs activités et restent des lieux éducatifs partagés par les jeunes et moins jeunes.

Pour un archiviste classiquement formé, les documents suivent un cycle de vie. La théorie des trois âges distingue les archives courantes, intermédiaires ou définitives, selon que la durée de préservation souhaitée est faible, moyenne ou longue. Archives courantes et intermédiaires sont régies par les règles du Records Management. Des tris sont effectués régulièrement, susceptibles d’aboutir à la destruction au bout du temps légal, ou bien à une préservation plus longue, voire définitive pour des documents présentant un intérêt légal ou patrimonial. Les accès se montrent réservés, publics ou semi-ouverts. Les archives municipales et départementales ont d’ores et déjà numérisé massivement les registres de naissance. Bien souvent, l’unité de base en archives est la boîte susceptible de contenir plusieurs document d’archives. On parle d’article, de pièce ou de document original. Tout cela forme une espèce d’arbre dans lequel chaque chose a sa place, et chaque place a sa chose.

Les activités des bibliothèques semblent à priori fort différentes car les documents imprimés existent en plusieurs exemplaires, éditions, langues et formats. Des traductions d’une même œuvre peuvent exister, plusieurs exemplaires d’un même livre peuvent être présents en rayons et prêtés entre bibliothèques. Les publics se montrent plus larges également, de 7 à 77 ans et au-delà. Les bibliothèques classent leurs documents par thèmes et par type : les périodiques sont distingués des livres, des bandes-dessinées, des vidéos, jeux vidéos et disques. La presse est accessible en ligne. Des métadonnées permettent de décrire de manière précise les contenus, les localisations en rayon ou en prêt. L’unité correspond à un document (livre, revue, disque, jeu vidéo) susceptible de se trouver en rayon, en prêt, ou bien en cours de rangement. Des flux de données plus importants et divers sont à gérer.

L’arrivée du numérique a en partie changé la donne non seulement en offrant aux organismes de mémoire (bibliothèque, archives, musée) un public plus large, mai aussi en changeant considérablement les pratiques internes.

1. Les archives numériques

Différentes améliorations technologiques survenues entre 1990 à 2010 ont rendu possible l’archivage numérique. On note l’évolution des appareils personnels – ordinateur, tablettes, smartphones. La mise au point des formats majeurs tels que TIFF (Tagged Image File Format, 1986), JPEG (Joint Photographic Experts Group, 1992), PNG (Portable Network Graphics, 1996), ou PDF (Portable Document Format, 1993), du navigateur (1990) et des protocoles HTTP (HyperText Transfer Protocol, 1990), HTTPS (1994) marque une première étape. D’autres points critiques concernent les performances des réseaux, la standardisation matérielle et logicielle. Le développement de l’EAD (Encoded Archial Description) débute en 1993 à l’Université de Californie à Berkeley. Un standard d’encodage des descriptions de documents d’archives est mis au point, susceptible de gérer des structures informationnelles hiérarchisées dans lesquelles la collection tient une place particulière.

Au support papier toujours d’actualité pour de très nombreux documents s’ajoutent des documents accessibles via divers supports en dur pour l’acquisition, via éventuellement le web pour la diffusion. Un nombre croissant de document n’existe qu’au format numérique comme les mails par exemple qui ont valeur juridique en France depuis la loi du 13 mars 2000. Se pose donc la question immédiate de la structure informatique à mettre en place.

Ainsi, des archives et bibliothèques privées et publiques uniquement virtuelles émergent. Elles rassemblent à l’aide d’un même gestionnaire de contenu et parfois de protocoles partagés des documents d’origines diverses. On pense aux protocoles OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) ou bien aux technologies IIIF (International Image Interoperability Framework) dédiées au visionnage d’images en haute résolution. Over the top, ces applications conçues pour servir les documents les plus demandés se doivent d’être bien référencées dans les moteurs de recherche.

Mais avec le numérique, de nouveaux risques apparaissent également, spécifiquement liés aux supports. Ils incluent d’éventuels changements relatifs aux matériels et aux formats, les erreurs dans les copies, les usures des supports, l’abandon de certains logiciels de lecture, l’activité des personnes et organisations malveillantes, alors que les risques traditionnels perdurent comme les erreurs humaines, les malversations d’origine interne ou externe, vols, incendies et inondations, pertes et oublis, etc. La préservation des documents numériques sur le long terme – disons plus de 20 ans – nécessite des précautions particulières.

Publié dans une première version en 2002 à l’adresse des archives, le modèle OAIS (Open Archival Information System) propose une organisation et un ensemble de fonctions théoriques à mettre en place pour qu’une archive contenant du physique ou du numérique (de l’électrique) puisse remplir ses fonctions sur de longues périodes. Mis au point dans le contexte de l’aérospatial, le modèle s’avère assez général et concerne aussi bien les aspects informatiques que l’organisation humaine et administrative ou bien certains aspects juridiques. Il s’agit notamment de préserver des copies de données en des endroits distants, de vérifier régulièrement l’intégrité des fichiers archivés. Les précautions incluent l’usage effectif des formats choisis en interaction avec la communauté cible des utilisateurs, pour reprendre le vocabulaire un peu spécial du modèle.

Un élément important peu évoqué dans le modèle OAIS concerne l’interopérabilité des solutions logicielles mises en place. Le respect de normes rend possible l’échange de documents et de métadonnées entre logiciels distants. L’intérêt est d’autant plus grand que la durée de vie des objets numériques et des métadonnées dépasse largement la durée de vie des logiciels et des matériels. Au-delà des échanges, l’interopérabilité facilite un changement de système informatique en fin du cycle de vie du logiciel d’archivage par exemple.

Une panoplie de solutions techniques s’offre pour la gestion des archives. On peut opter pour une solution mutualisée, sur le web. Un logiciel maintenu par une structure spécialisée sera partagé par différents organismes. Une plateforme peut aussi être installée et maintenue par l’organisation responsable de l’archivage, éventuellement aidée par une société de service qui se charge de certains aspects informatiques. La gestion délocalisée des archives rencontre un important succès, surtout en ce qui concerne les entreprises privées auprès des organismes de petite ou moyenne taille. Elle suscite aussi des questions en terme de coût, de fiabilité et de confiance. OAIS prévoit l’organisation d’audits réguliers effectuée par des entreprise agréées.

2. Les métadonnées des archives

Le titre, l’auteur, le type de document, la date, les droits, le dossier et sa cote, la collection d’appartenance, le classement ou l’empreinte des fichiers sont quelques unes des métadonnées importantes dans le domaine de l’archivage électronique. Des éléments comme le texte résultent d’une reconnaissance optique de caractère, ou d’une transcription et font aussi partie des métadonnées particulièrement utiles pour la recherche ou l’étude des documents originaux. Cependant, la définition d’un schéma de métadonnées partagé ne se fait généralement pas à la légère.

L’ICA (International Council on Archives) modélise de manière concrète les bonnes pratiques archivistiques en émettant des normes susceptibles d’être appliquées aux archives municipales, départementales et nationales. L’organisme publie en 1994 ISAD(G) (International Standard Archival Description-General), une norme définissant un ensemble de règles de description des archives sur leurs différents niveaux. La norme se base sur les principes de respect des fonds, d’identification et de cote des boîtes et dossiers, de liaison hiérarchique des descriptions. ISAAR(CPF) (International Standard Archival Authority Record) formalise la description des collectivités (entreprises, administrations, associations), personnes et familles dépositaires. ISDF (International Standard for Describing Functions) décrit les fonctions assurées par les archives alors qu’ISDIAH (International Standard for Describing Institutions with Archival Holdings) concerne la description des organismes et services. Les formats de métadonnées EAD (Encoded Archival Description) et EAD-CPF (Corporate bodies, Persons, Families) émergent de ces réflexions. Ils permettent de décrire pratiquement en XML les items archivés ainsi que les agents auteurs et responsables des versements.

Publié en première version à partir de 2006 de manière indépendante, le Standard d’Echange des Données pour l’Archivage (SEDA) modélise les échanges de données en France et permet l’établissement de spécifications à des sociétés de service informatique.

3. Les métadonnées des bibliothèques

De leur côté, les bibliothèques décrivent classiquement depuis les années 70 environ leurs catalogues à l’aide des formats d’encodage MARC (MAchine-Readable Cataloging) et dérivés tels MARC 21, UNIMARC et INTERMARC. Les notices d’autorités qui représentent les points d’accès contrôlés aux documents se trouvent modélisées par des spécifications telles que FRAD (Functional Requirements for Authority Data) pour les personnes et agents, et FRSAD (Functional Requirements for Subject Authority Data) pour les sujets et matières. Les formats XML MODS (Metadata Object Description Schema, 2002), de même que MADS (Metadata Authority Description Schema, 2005) constituent des formats pivots. Ils décrivent de manière unifiée et simplifiée par rapport aux formats MARC les documents des bibliothèques de même que les autorités et sujets.

L’Université de Berkeley se trouve engagée sur un projet qui conduit au développement en 1998 d’un système qui combine le code des fichiers à préserver ainsi que leurs métadonnées en un seul objet numérique. Un standard XML pour de tels objets nommé Metadata Encoding and Transmission Standard (METS) est créé, encodant simultanément les métadonnées descriptives, administratives et structurelles. Par ailleurs créé en 2005 par un groupe de travail réunissant divers acteurs du domaine, Preservation Metadata: Implementation Strategies (PREMIS) devient un standard XML pour gérer les métadonnées de préservation des fichiers numériques. METS et PREMIS sont tous les deux maintenus par la Bibliothèque du Congrès. En France, La BnF comme de nombreuses autres institutions, utilise PREMIS comme schéma XML imbriqué dans ses fichiers METS afin de décrire ses objets numériques, les événements qui les ont affectés et les agents impliqués.

Des réflexions plus récentes mais fondamentales ont par ailleurs conduit à un changement important et à l’émergence de nouveaux formats de métadonnées susceptibles de renouveler grandement les pratiques de catalogage des bibliothèques. Émis par l’IFLA (International Federation of Library Associations and Institutions) en 1998, le modèle conceptuel FRBR (Functional Requirements for Bibliographic Records) sert de théorie pour redéfinir la notion de notice bibliographique et de document de bibliothèque susceptible d’être emprunté. Une hiérarchie conceptuelle (œuvre, expression, manifestation, item) permet de décrire par exemple un roman sous forme d’une œuvre originale (œuvre) successivement écrite, éditée et possiblement traduite (expression), en version numérique ou imprimée (manifestation) et dont un exemplaire précis est géré par la bibliothèque (item). Cette décomposition fonctionnelle rend possible une simplification du catalogage et ouvre de nouvelles possibilités de recherche dans le cadre du web sémantique.

C’est avec le code de catalogage RDA (Ressource Description and Access) émis initialement par différents organismes anglo-saxons et publié par l’IFLA dans une première version en 2009 que FRBR se concrétise au niveau international. Les recommandations émises traduites en de nombreuses langues et l’organisation du bureau de l’IFLA est calqué sur celui des Nations Unies en terme de répartition géographique des membres. Quelques spécificités françaises sont introduites et le mouvement donne lieu actuellement au niveau national à RDA-FR et à la Transition bibliographique. Ces changements d’usage en matière de catalogage et d’actions informatiques sont orchestrés en France par la BnF (Bibliothèque nationale de France) avec « data.bnf.fr » et l’ABES (Agence Bibliographique de l’Enseignement Supérieur) avec « data.idref.fr ».

Le web sémantique, ses méthodes et ses formats émerge en effet au milieu des années 2000 et apporte une influence certaine aux mutations en cours. Des ontologies ou vocabulaires écrits en OWL (Web Ontology Language), une variante d’XML et RDF, viennent remplacer les schémas de métadonnées en XMLS des années 2000. De nouveaux formats de métadonnées, des formats de dictionnaires (SKOS – Simple Knowledge Organization System) susceptibles de décrire une variété d’entités intellectuelles, physiques ou numériques sont mis au point fréquemment à l’initiative du W3C.

Les vocabulaires « anciens » tels que Dublin Core, FOAF (Friend Of A Friend) ou bibo (The Bibliographic Ontology) se montrent particulièrement adapté à la diffusion de petits ensembles de documents, de notices descriptives de personnes et d’organismes, ou de concepts décrits avec un nombre limité de champs. Ces formats rendent possible la description relativement aisée et la diffusion de corpus numériques créés dans le cadre d’activités de recherche.

Parmi les formats de travail des catalogueurs professionnels dérivés de FRBR se distingue BIBFRAME (Bibliographic Framework Initiative, 2012), proposé par la Bibliothèque du Congrès. Deux autres vocabulaires publiés par des universitaires regroupés autour de l’initiative SPAR Ontologies peuvent être cités : FABIO et Essential FRBR. Ces formats restent également en cours de spécification et d’évolution.

D’autres ontologies de haut niveau entendent décrire l’ensemble des entités d’un domaine d’application. On peut citer parmi celles-ci la norme internationale CIDOC-CRM. Du côté des grands acteurs du web, Google et son Knowledge Graph basé sur l’ontologie ouverte schema.org ne saurait être oublié.

En prônant l’ouverture des données et des métadonnées dans le respect des droits de copie, les technologies du « web sémantique » ou « web des données » devraient trouver leur place sur le long terme. La limite constitue en effet l’interopérabilité. Un peu comme dans une langue, si tout le monde fixe ses propres règles et utilise ses propres vocabulaires, plus personne ne se comprend ! Il convient alors d’attendre que de nouvelles pratiques émergent.

3. Vers une convergence ?

Les archives, les bibliothèques, les musées et les corpus scientifiques de la recherche obéissent globalement aux mêmes règles, nécessitent des savoir-faire voisins. Il s’agit d’acquérir, de stocker, et de diffuser à destination d’un public ciblé un nombre variable de documents auxquels sont associés des métadonnées. Cette communauté de pratique des institutions de mémoire se concrétise cependant à travers l’utilisation de standards et de formats différents.

Les freins à une possible convergence se montrent essentiellement d’ordre culturels et techniques. Les précisions de description souhaitées varient selon les usages. Les différences tiennent également en terme informatique à la nature physique des objets (boîte d’archives ou document susceptible d’être prêté), aux workflows et à la scalabilité, c’est à dire la capacité des programmes informatiques à gérer de gros volumes de données. La présence d’interfaces de programmations ou API, de protocoles dédiés aux échanges tels qu’OAI-PMH ou OAI-ORE pour les archives ouvertes, Z39.50 pour les bibliothèques, protocole IIIF, du langage de requêtes SPARQL pour les outils du web sémantique, rendent théoriquement possible les interopérabilités. Cette divergence semble moins marquée aux Etats-Unis ou la seule bibliothèque du Congrès s’occupe de gérer la maintenance des formats émergeants.

Le web sémantique propose un ensemble de méthodes qui pourrait faire évoluer les fonctionnalités des archives et des bibliothèques numériques, mais aussi de tout un ensemble d’outils du web. Il deviendra sans doute très prochainement plus facile d’extraire des tableaux de données représentant des réponses pertinentes à des questions aussi différentes que : « Quelle est l’œuvre publiée et non publiée de Poincaré ? » ou bien « Quels auteurs célèbres et bien connus ont écrit et échangé il y a 100 ans des correspondances entre eux ? ». Comment accéder à ces documents depuis chez moi ? (*)

(*) : Quelques réponses se trouvent déjà ici ou bien encore là, et peut être à cet endroit encore, ou bien là également.

4. Quelques liens

Archives de France : Lien
Archives départementales de Meurthe-et-Moselle : Lien
BnF – Bibliothèque nationale de France : Lien
Gallica, la bibliothèque numérique de la BNF contient plusieurs millions de documents – livres, manuscrits, cartes et plans, estampes, photographies, affiches, etc : Lien
Co-Libris réseau Grand Nancy : Lien
data.bnf.fr : Lien
data.idref.fr : Lien
Wikidata:Introduction : Lien

Partiellement révisé : mai 2021

4 commentaires

Adeline Denoeud dit :

6 septembre 2013 à 11:59

Bonjour,
Il me semble qu’il y a une petite inexactitude : la distinction entre EAD et ISAD G repose sur le support et non sur la catégorie d’archives. Toutes les descriptions d’archives papier et électroniques doivent (normalement) suivre la norme internationale ISAD G qu’elle soient courantes, intermédiaires ou historiques, alors que la DTD EAD est spécifique à la description des données numériques.

Réponse
- Pierre COUCHET dit :
  
  8 septembre 2013 à 10:49
  
  Merci de votre participation au blog Archivengines. Concernant EAD, on peut trouver à la BNF (http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html) des renseignements complémentaires qui montrent , sauf erreur, que EAD concerne les documents numériques et les documents papiers. L’article précise aussi que EAD respecte les principes de ISAD (G).
  
  Réponse
Magron dit :

4 septembre 2013 à 1:20

Bonjour,
Une correction à faire en ce qui concerne HAL : HAL est une archive institutionnelle, utilisée par les établissements de recherche, les universités et les grandes écoles. Elle ne moissonne pas mais d’autres archives institutionnelles dupliquent leurs contenus dans HAL pour bénéficier de l’archivage pérenne.

Réponse
- Pierre COUCHET dit :
  
  4 septembre 2013 à 5:56
  
  Merci de lire ArchivEngines et de nous apporter ces précisions sur le fonctionnement de HAL. La correction est faite.
  
  Réponse