Des archives traditionnelles aux archives numériques

Le support numérique est venu progressivement seconder les supports traditionnels pour archiver les documents dans les institutions de mémoire que sont les bibliothèques, les archives et les musées. Les vieux lecteurs de microfilms sont partis en réserve. Dans les musées, des œuvres numériques apparaissent depuis les années 70. Si le format électronique offre de nouvelles possibilités concernant la vision et la diffusion des documents et œuvres d’art, la préservation sur le long terme des fichiers et logiciels nécessite un ensemble de précautions particulières. Alors que la préservation des supports traditionnels est bien maîtrisée, de nouveaux savoir-faire numériques renouvellent et étendent les possibilités du classique. Des mantras émergent : métadonnées, moteur de recherche, base de données relationnelles, préservation numérique, audience ciblée.

tablette

Depuis plusieurs centaines d’années, voire peut être depuis l’invention de l’écriture en Mésopotamie il y a plus de 5000 ans, les archives assurent l’acquisition, le stockage et la restitution sur le long terme de documents de toutes natures. S’il s’agissait alors souvent de consigner des transactions commerciales avec valeur de preuve, des correspondances écrites sur tablettes d’argile, les archives gèrent de nos jours des textes, mais aussi des images, des cartes, et de manière plus récente des documents nativement numériques de toutes sortes – documents bureautiques, mails, sites web, objets 3D, code informatique, bases de données, systèmes de fichiers, audio et vidéo, etc.

De manière traditionnelle, l’archivistique distingue les archives courantes, intermédiaires ou définitives, selon que la durée de préservation souhaitée est faible, moyenne ou longue. Archives courantes et intermédiaires sont régies par les règles du Records Management. Les documents suivent en effet un cycle de vie. Des tris sont effectués régulièrement, pouvant aboutir selon les règles de l’archivage à la destruction des documents ou à leur préservation définitive.

Alors que les bibliothèques classent leurs fonds par thèmes, les archives et musées préoccupés de préservation définitive les organisent en collections ou fonds marquant l’origine des documents. Des métadonnées permettent de décrire de manière précise les contenus, les localisations, les droits et les traitements effectués. Si un document traditionnel mal rangé est un document perdu, il es est de même pour un document numérique sans métadonnées. Les activités des archives sont fortement régies par un ensemble de bonnes pratiques, de recommandations et de normes susceptibles d’assurer la préservation des données et éventuellement l’interopérabilité entre archives distantes.

1. Les archives numériques

cloud

Différentes améliorations technologiques survenues entre 1990 à 2010 ont rendu possible l’archivage numérique. On note les progrès des appareils – PC, tablettes, smartphones, télévisions connectées, scanneurs, etc. Les formats majeurs de l’archivage numérique tels que TIFF, JPEG ou PDF émergent aussi à cette époque. D’autres points critiques concernent les performances des réseaux, les progrès dans le domaine des logiciels. Même si le supports papier reste d’importance majeure pour les documents anciens, de très nombreuses archives sont maintenant accessibles via le web, depuis une variété de terminaux, rendant aisé et instantané l’accès aux données et la duplication des fichiers, des archives et bibliothèques virtuelles émergent. Elles rassemblent à l’aide d’un même gestionnaire de contenu des documents ou parties de documents d’origines diverses. Over the top, ces données se doivent d’être bien référencées dans les moteurs de recherche en vigueur.

Mais de nouveaux risques sont aussi apparus, rendant les objets potentiellement impossibles à consulter. Ceux-ci incluent les changements relatifs aux matériels et aux formats, les erreurs dans les copies, les usures des supports, l’activité des logiciels malveillants, alors que des risques traditionnels perdurent comme les erreurs humaines, les malversations d’origine interne ou externe, vols, incendies et inondations, perte. La préservation des documents numériques sur le long terme – plus de 20 ans – nécessite toujours des précautions particulières.

Publié dans une première version en 2002, le modèle OAIS propose une organisation et un ensemble de fonctions théoriques à mettre en place pour qu’une archive numérique puisse remplir ses fonctions. Mis au point dans le domaine de l’aérospatial, le modèle s’avère assez général et concerne aussi bien les aspects informatiques que l’organisation humaine et administrative ou les aspects légaux. Il s’agit notamment de préserver des copies de données en des endroits distants, de vérifier régulièrement l’intégrité des fichiers archivés. Les précautions incluent l’usage effectif des formats de données, le renseignement des métadonnées saisie en des formats spéciaux, choisis en interaction avec la communauté cible d’utilisateurs.

Un élément important peu évoqué dans le modèle OAIS concerne l’interopérabilité des solutions logicielles mises en place. Le respect de normes rend possible l’échange de documents et de métadonnées entre logiciels distants. L’intérêt est d’autant plus grand que la durée de vie des objets et des métadonnées dépasse la durée de vie des logiciels et des technologies employés. Au-delà des échanges, l’interopérabilité facilite un changement de système informatique en fin du cycle de vie d’un logiciel d’archivage.

Une panoplie de solutions techniques s’offre pour la gestion des archives. On peut opter pour une solution mutualisée, dans laquelle un logiciel maintenu par une structure spécialisée sera utilisé par différents organismes. Un logiciel peut aussi être installé et maintenu sur le long terme, ce qui peut être fait par l’organisme archiveur, ou bien par une société de service qui se charge de tous les aspects informatiques. La gestion délocalisée des archives rencontre un important succès, surtout auprès des organismes et entreprises de petite ou moyenne dimension. Mais elle suscite aussi des questions en terme de coût, de fiabilité et de confiance.

2. Les métadonnées

iceberg

Le titre, l’auteur, le type de document, la date, les droits, la collection d’appartenance, le classement ou l’empreinte d’un fichier sont quelques unes des métadonnées importantes. Des éléments comme le texte résultant d’une reconnaissance optique de caractère, ou d’une transcription font aussi partie des métadonnées particulièrement utiles pour la recherche ou l’étude des documents originaux. Les formats de métadonnées dépendent du métier.

Les archives utilisent souvent les format EAD (Encoded Archival Description) ou ISAD (G) (International Standard Archival Description-General). Les formats dérivés de MARC tels que UNIMARC, MARC 21 / MARC XML, MODS, de même que FRBR (Functional Requirements for Bibliographic Records) décrivent les documents des bibliothèques. Le shéma PREMIS concerne spécifiquement les métadonnées de préservation.

TEI (Text Encoding Initiative) sert à l’encodage des transcriptions des textes manuscrits ou des documents audios. Dublin Core permet une description simple de documents numériques de tous types, que ceux-ci proviennent d’archives, de bibliothèques, de musées, de corpus ou de pages webs simples ou dynamiques. Basé sur Dublin Core essentiellement, le protocole OAI-PMH rend possible l’interopérabilité.

Le web sémantique propose l’utilisation d’ontologies pour ordonner les métadonnées des objets physiques ou numériques. On peut distinguer les ontologies de bas niveau comme Friend-Of-A-Friend (FOAF), décrivant bien des éléments particuliers d’un objet numérique (l’auteur). Des ontologies de haut niveau permettent de décrire l’ensemble des entités d’un domaine d’application. On peut citer parmi celles-ci shema.org ou la norme internationale CIDOC-CRM. En prônant l’ouverture des données et des métadonnées dans le respect des droits de copie, les technologies du » web sémantique » ou « web des données » devraient trouver leur place sur le long terme. La limite constitue en effet l’interopérabilité. Un peu comme dans une langue, si tout le monde fixe ses propres règles, plus personne ne se comprend !

3. Types d’archives

Différents types d’archives peuvent être distingués sur la base du contenu, de l’accès ou du mode de gestion. Les archives des entreprises, du commerce, de l’industrie, de la finance, de la santé relèvent du Records Management et contiennent des données préservées pour des raisons légales, commerciales ou techniques. Ce sont souvent les administrations locales, régionales ou nationales, des institutions de l’enseignement et de la culture qui ont  pour mandat la gestion des archives définitives.

Certaines archives sont spécialisées dans la gestion des types particuliers de documents, la vidéo par exemple. Des archives mixtes gèrent en parallèle des documents physiques et numériques. Les archives ouvertes proposent des documents librement accessibles. L’auto-archivage indique que les versements sont réalisés par les auteurs eux-mêmes des documents. Les Entrepôts institutionnels ou Archives Institutionnelles fréquemment déployés dans les milieux universitaires désignent des archives ouvertes, pouvant fonctionner en mode auto-archivage et rassemblant des thèses, des articles scientifiques et des rapports. On peut finalement citer le cas des archives personnelles ou familiales.

4. Une convergence inattendue ?

convergence
Une convergence inattendue ?

Les archives, les bibliothèques, les musées et les corpus scientifiques de la recherche obéissent globalement aux mêmes règles, nécessitent les mêmes savoir-faire. Il s’agit d’acquérir, de stocker, et de diffuser à destination d’un public ciblé un nombre variable de documents auxquels sont associés des métadonnées. Cette communauté de pratique des institutions de mémoire est visible à travers l’utilisation de vocabulaires communs comme le CIDOC-CRM, de sites comme LODLAM (Linked Open Data in Libraries Archives and Museums) ou d’initiatives internationales comme celles de l’OCLC (Online Computer Library Center).

Les différences tiennent principalement en termes informatiques à la nature des objets, aux workflows et à la scalabilité, c’est à dire la capacité des programmes informatiques à gérer de gros volumes de données. La présence d’interfaces de programmations ou API incluant OAI-PMH ou OAI-ORE pour les archives ouvertes, Z39.50 pour les bibliothèques, ou SPARQL pour les outils du web sémantique permet d’augmenter l’interopérabilité.

Le web sémantique propose en effet un ensemble de méthodes qui devrait faire évoluer les fonctionnalités non seulement des archives numériques, mais aussi de de tout un ensemble d’outils du web incluant les moteurs de recherche. Il deviendra sans doute très prochainement plus facile de trouver des réponses pertinentes à des questions aussi différentes que : « Quels sont les livres dont Poincaré est l’auteur? » ou bien « Quels auteurs ont écrit des livres sur Poincaré ? »(*).

(*) : Une réponse proposées par le SUDOC (Système Universitaire de Documentation) se trouve ici.

D’autres informations sur Poincaré obtenues avec fr.dbpedia.org, une base sémantique extrayant automatiquement les éléments factuels contenus dans la version française de wikipedia.

5. Quelques acteurs du numérique

  • Archives de France : Lien
  • Archives départementales de Meurthe-et-Moselle : Lien
  • Gallica, la bibliothèque numérique de la BNF contient plusieurs millions de documents – livres, manuscrits, cartes et plans, estampes, photographies, affiches, etc : Lien
  • Institut National de l’audiovisuel : Lien
  • Gérée par le CCSD – CNRS, HAL est une archive institutionnelle ouverte utilisée par les établissements de recherche, les universités et les grandes écoles françaises : Lien
  • iRevues (INIST-CNRS) contient des revues scientifiques numérisées de toutes disciplines : Lien
  • Persée (Université de Lyon, ENS, CNRS) contient des revues et des livres de Sciences Humaines : Lien
  • Numdam (Université de Grenoble, CNRS), la bibliothèque numérique française des Mathématiques : Lien
  • Le CINES est opérateur pour l’archivage des données et documents numériques produits par la communauté Enseignement supérieur et Recherche française : Lien
  • Europeana donne accès à des livres, peintures, films, objets des musées et des archives, numérisés par différentes institutions européennes : Lien
  • arXiv, open access to e-prints in Physics, Mathematics, Computer Science : Lien
  • Cambridge Digital Library : Lien
  • HathiTrust donne l’accès aux documents d’un groupe de bibliothèques de recherche, essentiellement américaines : Lien
  • Digital Public Library of America (DPLA) rassemble des documents provenant de différentes archives, bibliothèques et musées américains : Lien
  • Archives Bourbaki – Documents d’histoire rassemble 390 documents du groupe de mathématiciens Bourbaki datant de 1934 à 1954 : Lien

6. Sur Wikipedia

CIDOC Conceptual Reference Model, Cycle de vie (document), Description archivistique encodée (EAD), Gestion des documents d’archives, Gestion électronique des documents, Machine-Readable Cataloging, Metadata Object Description Schema, Norme générale et internationale de description archivistique (ISAD-G), Open Archival Information SystemOpen Archives Initiative Protocol for Metadata Harvesting, Preservation Metadata: Implementation Strategies (PREMIS), Spécifications fonctionnelles des notices bibliographiques, Système d’archivage électronique

Publicités

4 commentaires

  1. Bonjour,
    Il me semble qu’il y a une petite inexactitude : la distinction entre EAD et ISAD G repose sur le support et non sur la catégorie d’archives. Toutes les descriptions d’archives papier et électroniques doivent (normalement) suivre la norme internationale ISAD G qu’elle soient courantes, intermédiaires ou historiques, alors que la DTD EAD est spécifique à la description des données numériques.

  2. Bonjour,
    Une correction à faire en ce qui concerne HAL : HAL est une archive institutionnelle, utilisée par les établissements de recherche, les universités et les grandes écoles. Elle ne moissonne pas mais d’autres archives institutionnelles dupliquent leurs contenus dans HAL pour bénéficier de l’archivage pérenne.

    • Merci de lire ArchivEngines et de nous apporter ces précisions sur le fonctionnement de HAL. La correction est faite.

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s