Des archives traditionnelles aux archives numériques

tabletteLe passage du papier au numérique correspond à un changement majeur, ayant un impact important sur les fonctionnalités et les services des archives.  Si l’électronique offre de nouvelles possibilités concernant la diffusion, la préservation sur le long terme des fichiers numériques nécessite un ensemble de précautions spéciales. Ce véritable savoir-faire technologique s’avère partagé par les professionnels des institutions de mémoire que sont les bibliothèques, les archives et les musées.

Depuis plusieurs centaines d’années, voire peut être depuis l’invention de l’écriture en Mésopotamie il y a 5300 ans, les archives assurent l’acquisition, le stockage et la restitution sur le long terme de documents de toutes natures. S’il s’agissait alors souvent de consigner des transactions commerciales, avec valeur de preuve, sur des tablettes d’argile, les archives gèrent de nos jours des textes sur papier, mais aussi des images, des manuscrits, des cartes, et de manière plus récente des documents audios – sons et vidéos -, ou des documents nativement numériques de toutes sortes – documents bureautiques, mails, sites web, objets 3D, code informatique, bases de données, systèmes de fichiers, etc. De manière traditionnelle, l’archivistique distingue les archives courantes, intermédiaires ou définitives, selon que la durée de préservation souhaitée est faible, moyenne ou longue. Archives courantes et intermédiaires sont régies par les règles du Records Management. Les documents suivent en effet un cycle de vie au cours duquel les droits de consultation peuvent changer. Des tris sont effectués régulièrement, pouvant aboutir à la destruction éventuelle de documents ou à leur préservation définitive. Alors que les bibliothèques classent leurs fonds par thèmes, les archives préoccupées de préservation définitive, comme les musées les organisent en collections marquant l’origine des documents. Des métadonnées permettent de décrire de manière précise les contenus, les localisations, les droits et les traitements effectués. Les activités des archives sont fortement formalisées et régies par un ensemble de bonnes pratiques, de recommandations et de normes susceptibles d’assurer la préservation des données et éventuellement l’interopérabilité.

Les archives numériques

cloud

Différentes améliorations technologiques survenues entre 1990 à 2010 ont rendu possible l’archivage numérique. On note les progrès des appareils – PC, tablettes, smartphones, télévisions connectées, scanneurs, etc, et l’émergence des formats majeurs de l’archivage numérique tels que TIFF, JPEG ou PDF. D’autres points critiques concernent les performances des réseaux, les progrès dans le domaine des logiciels. Même si le supports papier reste d’importance majeure pour les documents anciens, de très nombreuses archives sont maintenant accessibles via le web, depuis une variété de terminaux, rendant aisé et instantané l’accès aux données et la duplication des fichiers.

Mais de nouveaux risques sont aussi apparus, rendant les objets potentiellement impossibles à consulter. Ceux-ci incluent les changements relatifs aux matériels et aux formats, les erreurs dans les copies, les usures des supports, l’activité des logiciels malveillants, alors que des risques traditionnels perdurent comme les erreurs humaines, les malversations d’origine interne ou externe, vols, incendies et inondations. La préservation des documents numériques sur le long terme – plus de 20 ans – nécessite des précautions particulières. Et c’est le modèle OAIS, publié dans une première version en 2002, qui propose un modèle fonctionnel théorique basé sur l’expérience et des solutions. Mis au point dans le domaine de l’aérospatial, le modèle s’avère assez général et concerne aussi bien les aspects informatiques que l’organisation humaine et administrative ou les aspects légaux. Il s’agit notamment de préserver des copies de données en des endroits distants, de vérifier régulièrement l’intégrité des fichiers archivés, l’usage effectif des formats de données, de renseigner des métadonnées décrivant les documents, en interaction avec une communauté cible d’utilisateurs. Un élément important peu évoqué dans le modèle OAIS concerne l’interopérabilité des solutions logicielles mises en place. Le respect de normes rend possible l’échange de documents et de métadonnées entre logiciels distants. L’intérêt est d’autant plus grand que la durée de vie des objets et des métadonnées dépasse la durée de vie des logiciels et des technologies employés. L’interopérabilité facilite un changement de système informatique en fin du cycle de vie d’un logiciel d’archivage.

Une panoplie de solutions techniques s’offre pour la mise en ligne. On peut opter pour une solution mutualisée, dans laquelle un logiciel maintenu par une structure spécialisée sera utilisé par différents organismes. Un logiciel peut aussi être installé et maintenu sur le long terme, ce qui peut être fait par l’organisme archiveur, ou bien par une société de service qui se charge de tous les aspects informatiques – on parle de solution Saas (Software as a service). La gestion délocalisée des archives rencontre un important succès, surtout auprès des organismes et entreprises de petite ou moyenne dimension. Mais elle suscite aussi des questions en terme de coût ou de respect de la confidentialité des données.

Les métadonnées

icebergLe titre, l’auteur, le type de document, la date, les droits, la collection d’appartenance, le classement ou l’empreinte d’un fichier sont quelques unes des métadonnées importantes. Des éléments comme le texte résultant d’une reconnaissance optique de caractère, ou d’une transcription font aussi partie des métadonnées particulièrement utiles pour la recherche ou l’étude des documents originaux. Les formats de métadonnées dépendent du métier. Les archives utilisent souvent les format EAD (Encoded Archival Description) ou ISAD (G) (International Standard Archival Description-General). Les formats dérivés de MARC tels que UNIMARC, MARC 21 / MARC XML, MODS, de même que FRBR (Functional Requirements for Bibliographic Records) décrivent les documents des bibliothèques. Le shéma PREMIS concerne spécifiquement les métadonnées de préservation. TEI (Text Encoding Initiative) sert à l’encodage des transcriptions des textes manuscrits ou des documents audios. Dublin Core permet une description en première approche de documents numériques de tous types, que ceux-ci proviennent d’archives, de bibliothèques, de musées, de corpus ou de pages webs simples ou dynamiques. Le web sémantique propose l’utilisation d’ontologies pour caractériser les objets physiques ou numériques. On peut distinguer les ontologies de bas niveau, décrivant bien des éléments particuliers d’un objet numérique. Des ontologies de haut niveau permettent de décrire l’ensemble des entités d’un domaine d’application. On peut citer parmi celles-ci shema.org ou la norme internationale CIDOC-CRM. Quelque soit le vocabulaire employé, en prônant l’ouverture des données et des métadonnées dans le respect des droits de copie, les technologies du » web sémantique » ou « web des données » devraient s’imposer sur le long terme.

Types d’archives

Différents types d’archives peuvent être distingués sur la base du contenu, de l’accès ou du mode de gestion. Les archives des entreprises, du commerce, de l’industrie, de la finance, de la santé relèvent du Records Management et contiennent des données préservées pour des raisons légales, commerciales ou techniques. Ce sont souvent les administrations locales, régionales ou nationales, les structure de l’enseignement et de la culture qui ont  pour mandat la gestion d’archives définitives. Certaines archives sont spécialisées dans la gestion des types particuliers de documents, la vidéo par exemple. Des archives mixtes gèrent en parallèle des documents physiques et numériques. Les archives ouvertes proposent des documents librement accessibles. L’auto-archivage indique que les versements sont réalisés par les auteurs eux-mêmes des documents. Les Entrepôts institutionnels ou Archives Institutionnelles fréquemment déployés dans les milieux universitaires désignent des archives ouvertes, pouvant fonctionner en mode auto-archivage et rassemblant des thèses, des articles scientifiques et des rapports. On peut finalement citer le cas des archives personnelles ou familiales.

Une convergence inattendue

convergence

Une convergence inattendue ?

Un cœur de métier commun réunit non seulement les archives, mais aussi les bibliothèques, les musées et les corpus scientifiques de la recherche. Il s’agit d’acquérir, de stocker, et de diffuser à destination d’un public ciblé un nombre variable de documents auxquels sont associés des métadonnées. Cette communauté de pratique des institutions de mémoire est visible à travers l’utilisation de vocabulaires communs comme le CIDOC-CRM, de sites comme LODLAM (Linked Open Data in Libraries Archives and Museums) ou d’initiatives internationales comme celles de l’OCLC (Online Computer Library Center). Les différences tiennent principalement en termes informatiques à la nature des objets, aux workflows et à la scalabilité, c’est à dire la capacité des programmes informatiques à gérer de gros volumes de données. La présence d’interfaces de programmations ou API incluant OAI-PMH ou OAI-ORE pour les archives ouvertes, Z39.50 pour les bibliothèques, ou SPARQL pour les outils du web sémantique permet d’augmenter l’interopérabilité. Le web sémantique propose en effet un ensemble de méthodes qui devrait faire évoluer les fonctionnalités non seulement des archives numériques, mais aussi de de tout un ensemble d’outils du web incluant les moteurs de recherche. Il deviendra sans doute très prochainement plus facile de trouver des réponses pertinentes à des questions aussi différentes que : « Quels sont les livres dont Poincaré est l’auteur? » ou bien « Quels auteurs ont écrit des livres sur Poincaré ? »(*).

(*) : Une réponse proposées par le SUDOC (Système Universitaire de Documentation) se trouve ici.

D’autres informations sur Poincaré obtenues avec fr.dbpedia.org, une base sémantique extrayant automatiquement les éléments factuels contenus dans la version française de wikipedia.

Archives et bibliothèques numériques à visiter

  • Archives de France : ressources en ligne

  • Archives départementales de Meurthe et Moselle : ressources en ligne

  • Institut National de l’audiovisuel : l’audiovisuel : ressources en ligne
  • Gallica est la bibliothèque numérique de la BNF. Elle contient plus de 2,5 millions de documents de nature variée – livres, manuscrits, cartes et plans, estampes, photographies, affiches, etc.

  • Gérée par le CCSD – CNRS, HAL est une archive institutionnelle ouverte utilisée par les établissements de recherche, les universités et les grandes écoles françaises.

  • iRevues (INIST-CNRS) contient des revues anciennes et modernes de tous domaines scientifiques.
  • Persée (Université de Lyon, ENS, CNRS) contient des revues et des livres de Sciences Humaines.

  • Numdam (Université de Grenoble, CNRS) archive des revues françaises anciennes de Mathématiques.

  • Centre Informatique National de l’Enseignement Supérieur (CINES). Le CINES est mandaté pour archiver à long terme les données numériques de la communauté scientifique et technique française. Il travaille en collaboration avec différents organismes dont le TGIR Huma-Num du CNRS notamment.
  • arXiv est une archive ouverte qui rassemble plus de 2 millions de publications dans les domaines des Mathématiques et de la Physique.

  • HathiTrust contient plus de 10 millions de livres numérisés, produits à 96.4% par Google et localisés dans 18 bibliothèques universitaires Nord américaines (chiffres de 2013).

  • Europeana donne accès à des millions de livres, de peintures, de films, d’objets des musées et des archives, numérisés par différentes institutions européennes.

  • Digital Public Library of America rassemble plus de 2 millions de documents provenant de différentes archives, bibliothèques et musées américains. Des expositions numériques thématiques sont réalisées.

Archives courantes et intermédiaires

Comment passer des archives papiers aux archives électroniques ? Quelles étapes respecter pour mener à bien un projet d’archivage électronique ? Et la valeur probante… ? Une courte présentation de Jacques Léret. http://www.youtube.com/watch?v=1zxOoO2BEcQ

Voir aussi sur Wikipédia

Archivage électronique, Archives, Archivistique, CIDOC Conceptual Reference Model, Cycle de vie (document), Débuts de l’écriture en Mésopotamie, Description archivistique encodée (EAD), Dublin Core, Fonds d’archive, Gestion des documents d’archives, Gestion électronique des documents, Interface de programmation (API), JPEG, Libre accès (édition scientifique), Machine-Readable Cataloging, Metadata Object Description Schema, Métadonnée, Norme générale et internationale de description archivistique (ISAD-G), Open Archival Information SystemOpen Archives Initiative Protocol for Metadata Harvesting, Portable Document Format, Preservation Metadata: Implementation Strategies (PREMIS), Spécifications fonctionnelles des notices bibliographiques, Système d’archivage électronique, Tagged Image File Format, Web sémantique, Workflow

Poursuivre la lecture

Outils de veille

  1. #1 par Adeline Denoeud le 6 septembre 2013 - 11:59

    Bonjour,
    Il me semble qu’il y a une petite inexactitude : la distinction entre EAD et ISAD G repose sur le support et non sur la catégorie d’archives. Toutes les descriptions d’archives papier et électroniques doivent (normalement) suivre la norme internationale ISAD G qu’elle soient courantes, intermédiaires ou historiques, alors que la DTD EAD est spécifique à la description des données numériques.

    • #2 par Pierre COUCHET le 8 septembre 2013 - 10:49

      Merci de votre participation au blog Archivengines. Concernant EAD, on peut trouver à la BNF (http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html) des renseignements complémentaires qui montrent , sauf erreur, que EAD concerne les documents numériques et les documents papiers. L’article précise aussi que EAD respecte les principes de ISAD (G).

  2. #3 par Magron le 4 septembre 2013 - 1:20

    Bonjour,
    Une correction à faire en ce qui concerne HAL : HAL est une archive institutionnelle, utilisée par les établissements de recherche, les universités et les grandes écoles. Elle ne moissonne pas mais d’autres archives institutionnelles dupliquent leurs contenus dans HAL pour bénéficier de l’archivage pérenne.

    • #4 par Pierre COUCHET le 4 septembre 2013 - 5:56

      Merci de lire ArchivEngines et de nous apporter ces précisions sur le fonctionnement de HAL. La correction est faite.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :