Des archives et bibliothèques traditionnelles aux entrepôts numériques

Le support numérique est venu progressivement seconder les supports traditionnels pour archiver les documents dans les institutions de mémoire que sont les archives et les bibliothèques. Les vieux lecteurs de microfilms sont partis en réserve. Des œuvres numériques s’exposent depuis les années 70 dans les musées, alors que les bibliothèques proposent un catalogue de revues lisibles via un navigateur. Si le format électronique offre de nouvelles possibilités concernant la vision et la diffusion des enregistrements d’archives, des documents de bibliothèque et œuvres d’art, la préservation sur le long terme des fichiers et parfois des logiciels nécessite un ensemble de précautions particulières. Alors que la préservation des supports traditionnels est bien maîtrisée, de nouveaux savoir-faire numériques renouvellent et étendent les possibilités du classique. Des mantras émergent chez les pros : empreinte des fichiers, préservation numérique, formats de métadonnées, moteurs de recherche, bases de données relationnelles et orientées graphe, audience ciblée.

tablette

Depuis plusieurs centaines d’années, voire peut être depuis l’invention de l’écriture en Mésopotamie il y a plus de 5000 ans, les archives assurent l’acquisition, le stockage et la restitution sur le long terme de documents de toutes natures. S’il s’agissait alors souvent de consigner des transactions commerciales avec valeur de preuve, des correspondances, des titres de propriété, des accords diplomatiques sur tablette d’argile, des textes fondateurs ou bien des œuvres légères à succès apparaissent également recopiés à l’identique ou presque. Les archives gèrent de nos jours des textes, mais aussi des images et de manière plus récente des documents nativement numériques de toutes sortes – documents bureautiques, mails, sites web, objets 3D, code informatique, œuvre de crypto-art, et sont des lieux de recherche que les motifs en soient juridiques ou bien généalogiques. Les bibliothèques de leur côté diffusent les documents publiés en multiples exemplaires essentiellement. Elles se font médiathèques et distribuent en ligne leurs catalogues et une partie de leurs contenus, assurent localement des animations et restent des lieux d’éducation.

Pour un archiviste classiquement formé, les documents suivent un cycle de vie. La théorie des trois âges distingue les archives courantes, intermédiaires ou définitives, selon que la durée de préservation nécessaire est faible, moyenne ou longue. Archives courantes et intermédiaires sont régies par les règles du Records Management. Des tris sont effectués régulièrement, pouvant aboutir à la destruction au bout du temps légal ou bien à une préservation plus longue, voire définitive pour des documents présentant un intérêt patrimonial ou légal. Les accès se montrent réservés, publics ou semi-ouverts. Les archives municipales et départementales ont d’ores et déjà numérisé massivement les registres de naissance par exemple.

Les activités des bibliothèques semblent à priori fort différentes car les documents manipulés existent en de multiples exemplaires : plusieurs éditions et traductions d’une même œuvre peuvent exister. Les publics se montrent beaucoup plus larges, de 7 à 77 ans et au-delà. Les bibliothèques classent leurs documents par thèmes et par type : les périodiques sont distingués des livres, voire pour les médiathèques des bandes-dessinées, des vidéos et des disques. Des métadonnées permettent de décrire de manière précise les contenus, les localisations en rayon ou en prêt.

L’arrivée du numérique a en partie changé les pratiques non seulement en offrant aux organismes de mémoire un public plus large, mai aussi en changeant considérablement les pratiques internes.

1. Les archives numériques

cloud

Différentes améliorations technologiques survenues entre 1990 à 2010 ont rendu possible l’archivage numérique. On note les progrès des appareils personnels – ordinateur, tablettes, smartphones. Les formats majeurs de l’archivage numérique tels que TIFF (Tagged Image File Format, 1986), JPEG (Joint Photographic Experts Group, 1992), PNG (Portable Network Graphics, 1996), ou PDF (Portable Document Format, 1993) émergent ainsi à cette époque et restent largement utilisés. D’autres points critiques concernent les performances des réseaux, les progrès dans le domaine des logiciels.

Même si le support papier reste d’importance majeure pour les documents anciens, de très nombreux documents d’archives se trouvent de nos jours accessibles via le web, rendant aisé et instantané l’accès aux données et la duplication des fichiers. Certains n’existent qu’au format numérique comme les mails par exemple. Ainsi, des archives et bibliothèques privées et publiques uniquement virtuelles émergent. Elles rassemblent à l’aide d’un même gestionnaire de contenu et parfois de protocoles partagés des documents ou segments de documents d’origines diverses. On pense aux protocoles OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) ou bien aux technologies IIIF (International Image Interoperability Framework). Over the top, ces données se doivent d’être bien référencées dans les moteurs de recherche.

Mais de nouveaux risques apparaissent également liés au support numérique. Ils incluent les changements relatifs aux matériels et aux formats, les erreurs dans les copies, les usures des supports, l’abandon de certains logiciels, l’activité des logiciels, personnes et organisations malveillantes, alors que les risques traditionnels perdurent comme les erreurs humaines, les malversations d’origine interne ou externe, vols, incendies et inondations, pertes et oublis, etc. La préservation des documents numériques sur le long terme – plus de 20 ans – nécessite des précautions particulières.

Publié dans une première version en 2002 à l’adresse des archives, le modèle OAIS (Open Archival Information System) propose une organisation et un ensemble de fonctions théoriques à mettre en place pour qu’une archive numérique puisse remplir ses fonctions sur de longues périodes. Mis au point dans le contexte de l’aérospatial, le modèle s’avère assez général et concerne aussi bien les aspects informatiques que l’organisation humaine et administrative ou bien les aspects juridiques. Il s’agit notamment de préserver des copies de données en des endroits distants, de vérifier régulièrement l’intégrité des fichiers archivés. Les précautions incluent l’usage effectif des formats choisis en interaction avec la communauté cible des utilisateurs.

Un élément important peu évoqué dans le modèle OAIS concerne l’interopérabilité des solutions logicielles mises en place. Le respect de normes rend possible l’échange de documents et de métadonnées entre logiciels distants. L’intérêt est d’autant plus grand que la durée de vie des objets numériques et des métadonnées dépasse largement la durée de vie des logiciels et des matériels. Au-delà des échanges, l’interopérabilité facilite un changement de système informatique en fin du cycle de vie d’un logiciel d’archivage par exemple.

Une panoplie de solutions techniques s’offre pour la gestion des archives. On peut opter pour une solution mutualisée, sur le web. Un logiciel maintenu par une structure spécialisée sera utilisé par différents organismes. Une plateforme peut aussi être installée et maintenue par l’organisation responsable de l’archivage, éventuellement aidée par une société de service qui se charge de certains aspects informatiques. La gestion délocalisée des archives rencontre un important succès, surtout auprès des organismes et entreprises de petite ou moyenne taille. Elle suscite aussi des questions en terme de coût, de fiabilité et de confiance. OAIS prévoit l’organisation d’audits réguliers effectuée par des entreprise agréées.

2. Les métadonnées des archives et bibliothèques

iceberg

Le titre, l’auteur, le type de document, la date, les droits, la collection d’appartenance, le classement ou l’empreinte des fichiers sont quelques unes des métadonnées importantes dans le domaine de l’archivage électronique. Des éléments comme le texte résultent d’une reconnaissance optique de caractère, ou d’une transcription et font aussi partie des métadonnées particulièrement utiles pour la recherche ou l’étude des documents originaux. Cependant, la définition d’un schéma de métadonnées partagé ne se fait généralement pas à la légère.

L’ICA (International Council on Archives) modélise de manière concrète les bonnes pratiques archivistiques en émettant des normes susceptibles d’être appliquées aux archives municipales, départementales et nationales. L’organisme publie en 1994 ISAD(G) (International Standard Archival Description-General), une norme définissant un ensemble de règles de description des archives sur leurs différents niveaux. La norme se base sur les principes de respect des fonds, d’identification et de cote des boîtes et dossiers, de liaison hiérarchique des descriptions. ISAAR(CPF) (International Standard Archival Authority Record) formalise la description des collectivités (entreprises, administrations, associations), personnes et familles dépositaires. ISDF (International Standard for Describing Functions) décrit les fonctions assurées par les archives alors qu’ISDIAH (International Standard for Describing Institutions with Archival Holdings) concerne la description des organismes et services. Les formats de métadonnées EAD (Encoded Archival Description) et EAD-CPF (Corporate bodies, Persons, Families) émergent de ces réflexions. Ils permettent de décrire pratiquement en XML les items archivés ainsi que les agents auteurs et responsables des versements.

De leur côté, les bibliothèques décrivent classiquement depuis les années 70 environ leurs catalogues à l’aide des formats d’encodage MARC (MAchine-Readable Cataloging) et dérivés tels MARC 21, UNIMARC et INTERMARC. Les notices d’autorités qui représentent les points d’accès contrôlés aux documents se trouvent modélisées par des spécifications telles que FRAD (Functional Requirements for Authority Data) pour les personnes et agents, et FRSAD (Functional Requirements for Subject Authority Data) pour les sujets et matières. Les formats XML MODS (Metadata Object Description Schema, 2002), de même que MADS (Metadata Authority Description Schema, 2005) constituent des formats pivots. Ils décrivent de manière unifiée et simplifiée par rapport aux formats MARC les documents des bibliothèques de même que les autorités et sujets.

Des réflexions plus récentes mais fondamentales ont par ailleurs conduit à un changement important et à l’émergence de nouveaux formats susceptibles de renouveler grandement les pratiques de catalogage des bibliothèques. Émis par l’IFLA (International Federation of Library Associations and Institutions) en 1998, le modèle conceptuel FRBR (Functional Requirements for Bibliographic Records) sert de théorie pour redéfinir la notion de notice bibliographique et de document de bibliothèque susceptible d’être emprunté. Des métadonnées inscrites dans une hiérarchie conceptuelle (œuvre, expression, manifestation, item) permettent de décrire par exemple un roman sous forme d’une œuvre originale successivement écrite, éditée et possiblement traduite (expression), en version numérique ou imprimée (manifestation) et dont un exemplaire précis est géré par une bibliothèque (item). La décomposition fonctionnelle ouvre la possibilité de na pas avoir à cataloguer de multiples fois une œuvre originale alors que les éditions, langues, traductions et adaptations peuvent se montrer multiples.

C’est avec le code de catalogage RDA (Ressource Description and Access) émis initialement par différents organismes anglo-saxons et publié par l’IFLA dans une première version en 2009 que FRBR se concrétise au niveau international. Les règles de catalogage sont concernées. Les recommandations émises traduites en de nombreuses langues et l’organisation du bureau de l’IFLA est calqué sur celui des Nations Unies en terme de répartition géographique des membres. Quelques spécificités françaises sont introduites et le mouvement donne lieu actuellement au niveau national à RDA-FR et à la Transition bibliographique. Ces changements d’usage en matière de catalogage et d’actions informatiques sont orchestrés conjointement par la BnF et l’ABES (Agence Bibliographique de l’Enseignement Supérieur).

Le web sémantique, ses méthodes et ses formats émerge au milieu des années 2000 et apporte une influence certaine aux mutations en cours. Des ontologies ou vocabulaires écrits en OWL (Web Ontology Language), une variante d’XML et RDF, viennent remplacer les schémas de métadonnées en XMLS des années 2000. De nouveaux formats de métadonnées apparaissent, susceptibles de décrire une variété d’entités physiques ou numériques. Parmi les formats des bibliothèques tenant compte simultanément de FRBR et des recommandations du web sémantique se distinguent BIBFRAME (Bibliographic Framework Initiative, 2012) ou bien divers vocabulaires publiés par des universitaires regroupés autour de l’initiative SPAR Ontologies parmi lesquels FABIO ou bien Essential FRBR peuvent être cité. Ces formats restent actuellement en cours d’évolution.

Du côté des corpus scientifiques, le vocabulaire Dublin Core se montre particulièrement adapté à la diffusion de petits ensembles de documents numériques ou de pages du web décrits avec un nombre limité de champs. Le format permet une description simple et largement employée de documents de tous types, que ceux-ci proviennent d’archives, de bibliothèques, de musées, de corpus ou de pages web simples ou dynamiques. D’autres ontologies de bas niveau comme Friend-Of-A-Friend (FOAF) viennent apporter un complément à Dublin Core pour décrire les pages du web relatives à des personnes et organismes dont les rôles peuvent être ceux d’auteurs et de contributeurs.

Des ontologies de haut niveau entendent décrire l’ensemble des entités d’un domaine d’application. On peut citer parmi celles-ci shema.org ou la norme internationale CIDOC-CRM. En prônant l’ouverture des données et des métadonnées dans le respect des droits de copie, les technologies du « web sémantique » ou « web des données » devraient trouver leur place sur le long terme. La limite constitue en effet l’interopérabilité. Un peu comme dans une langue, si tout le monde fixe ses propres règles et ses propres vocabulaires, plus personne ne se comprend ! Et il convient alors d’attendre que de nouvelles pratiques émergent.

3. Vers une convergence ?

convergence
Une convergence inattendue ?

Les archives, les bibliothèques, les musées et les corpus scientifiques de la recherche obéissent globalement aux mêmes règles, nécessitent des savoir-faire voisins. Il s’agit d’acquérir, de stocker, et de diffuser à destination d’un public ciblé un nombre variable de documents auxquels sont associés des métadonnées. Cette communauté de pratique des institutions de mémoire se concrétise à travers l’utilisation d’outils et de formats communs comme XML et RDF.

Les freins à une possible convergence se montrent essentiellement culturels et techniques. Les précisions de description souhaitées varient selon les usages. Les différences tiennent également en terme informatique à la nature des objets, aux workflows et à la scalabilité, c’est à dire la capacité des programmes informatiques à gérer de gros volumes de données. La présence d’interfaces de programmations ou API, de protocoles dédiés aux échanges tels qu’OAI-PMH ou OAI-ORE pour les archives ouvertes, Z39.50 pour les bibliothèques, ou SPARQL pour les outils du web sémantique de même qu’IIIF rendent théoriquement possible l’interopérabilité.

Le web sémantique propose un ensemble de méthodes qui pourrait faire évoluer les fonctionnalités non seulement des archives numériques, mais aussi de tout un ensemble d’outils du web incluant les moteurs de recherche. Il deviendra sans doute très prochainement plus facile de trouver des réponses pertinentes à des questions aussi différentes que : « Quels sont les livres dont Poincaré est l’auteur? » ou bien « Quels auteurs ont écrit des livres sur Poincaré ? »(*).

(*) : Une réponse proposées par le SUDOC (Système Universitaire de Documentation) se trouve déjà ici alors que l’exploration au format web sémantique se fait depuis data.idref.fr ou bien data.bnf.fr entre autres possibilités.

4. Quelques liens

  • Archives de France : Lien
  • Archives départementales de Meurthe-et-Moselle : Lien
  • Gallica, la bibliothèque numérique de la BNF contient plusieurs millions de documents – livres, manuscrits, cartes et plans, estampes, photographies, affiches, etc : Lien
  • Institut National de l’audiovisuel : Lien
  • Gérée par le CCSD – CNRS, HAL est une archive institutionnelle ouverte utilisée par les établissements de recherche, les universités et les grandes écoles françaises : Lien
  • iRevues (INIST-CNRS) contient des revues scientifiques numérisées de toutes disciplines : Lien
  • Persée (Université de Lyon, ENS, CNRS) contient des revues et des livres de Sciences Humaines : Lien
  • Numdam (Université de Grenoble, CNRS), la bibliothèque numérique française des Mathématiques : Lien
  • Le CINES est opérateur pour l’archivage des données et documents numériques produits par la communauté Enseignement supérieur et Recherche française : Lien
  • Europeana donne accès à des livres, peintures, films, objets des musées et des archives, numérisés par différentes institutions européennes : Lien
  • arXiv, open access to e-prints in Physics, Mathematics, Computer Science, arXiv Bulk Data Access : Lien
  • Cambridge Digital Library, Newton Papers : Lien
  • HathiTrust donne l’accès aux documents d’un groupe de bibliothèques de recherche, essentiellement américaines : Lien
  • Digital Public Library of America (DPLA) rassemble des documents provenant de différentes archives, bibliothèques et musées américains : Lien
  • Archives Bourbaki – Documents d’histoire rassemble 390 documents du groupe de mathématiciens Bourbaki datés de 1934 à 1954 : Lien

Partiellement révisé : mai 2021

4 commentaires

  1. Bonjour,
    Il me semble qu’il y a une petite inexactitude : la distinction entre EAD et ISAD G repose sur le support et non sur la catégorie d’archives. Toutes les descriptions d’archives papier et électroniques doivent (normalement) suivre la norme internationale ISAD G qu’elle soient courantes, intermédiaires ou historiques, alors que la DTD EAD est spécifique à la description des données numériques.

  2. Bonjour,
    Une correction à faire en ce qui concerne HAL : HAL est une archive institutionnelle, utilisée par les établissements de recherche, les universités et les grandes écoles. Elle ne moissonne pas mais d’autres archives institutionnelles dupliquent leurs contenus dans HAL pour bénéficier de l’archivage pérenne.

    • Merci de lire ArchivEngines et de nous apporter ces précisions sur le fonctionnement de HAL. La correction est faite.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s