Archival Disc, un nouveau format de disque optique

2015 verra le lancement par Sony et Panasonic d’un nouveau format de disque optique, l’Archival Disc, qui stockera jusqu’à 1 To de données par disque. Les disques à usage professionnel présenteront une résistance accrue à l’humidité et à la poussière. La rétrocompatibilité est assurée.

Poster un commentaire

Petite introduction aux Big data : la machine à explorer les faits

Distance au Mc Donalds le plus proche (Etienne Côme, 2013)

“It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts.”

C’est une erreur capitale d’élaborer des théories avant d’avoir les données. Petit à petit, on modifie les faits pour qu’ils correspondent aux théories, au lieu d’élaborer des théories qui correspondent aux faits.

—Sherlock Holmes, A Study in Scarlett, Une étude en rouge (Arthur Conan Doyle, 1887, http://fr.wikipedia.org/wiki/Une_étude_en_rouge)

Boostées par le caractère ubiquitaire des appareils numériques (ordinateurs, téléphones, capteurs, objets), par l’ultra-connexion et par l’augmentation des débits, les données numériques produites ou utilisées par les particuliers, les entreprises ou les organismes connaissent  une croissance exponentielle qui devrait se poursuivre dans les dix prochaines années. Rassemblées en masse, dans des volumes dépassant le téraoctet (1000 Go) ou le pétaoctet (1000 To), ces big data sont constituées de textes, d’images, de sons, de vidéos et de leurs métadonnées, de messages électroniques, de données sociales et factuelles, de mesures provenant de capteurs en tous genres. Des histoires à succès récentes montrent que ces données de différentes natures peuvent être analysées conjointement pour générer des renseignements présentant une importante valeur ajoutée. Les big data sont classiquement présentées comme respectant la règle des 3V : Volume, Vélocité et Variété. La vélocité désigne la génération et la mesure en continu. La variété fait référence au fait que des données diverses (réseaux sociaux, données géographiques, données d’entreprise, données bibliographiques) sont rassemblées et analysées conjointement. Les techniques employées relèvent du « text mining » (analyse automatique des textes), du « data mining » (analyse d’images, de vidéos, etc) et de la « dataviz » (visualisation d’informations quantitatives sur des graphes et des cartes). De la fiabilité des données d’origine dépend la justesse des raisonnements ultérieurs, d’où le quatrième V parfois ajouté, celui de Véracité.

L’écosystème big data

Une vue nocturne de l'Europe visualisant les rayonnements nocturnes infra-rouges (NASA)

Une vue nocturne de l’Europe visualisant les rayonnements nocturnes infra-rouges (NASA)

Un écosystème informatique particulier, différent des traditionnels moteurs de recherche et bases de données relationnelles, a dû être développé. Les stockages et traitements sont réalisés dans des clusters de serveurs gérés à l’aide de logiciels tels que Hadoop, de systèmes de bases de données NoSQL comme MongoDB, Cassandra ou CouchDB, localisés éventuellement dans des clouds. Des logiciels parmi lesquels on peut citer R ou javascript (d3.js) permettent la création des graphes et outils interactifs. D’importantes sociétés commerciales telles que Google, Facebook, Yahoo, Twitter, mais aussi des startups sont à l’origine de ces logiciels dont certains sont libres, gérés notamment par la fondation Apache. Le traitement des données aboutit à la production de tableaux de bord composés de cartes, de chronologies ou de graphes. Ces éléments visuels facilitent l’appréhension globale et intuitive des informations présentes en grande quantité. Le passage des graphes aux données se fait en cliquant sur les courbes et les tableaux. La démarche permet de vérifier la validité des sources, d’élaborer des raisonnements basés sur des faits réels et non sur des affirmations ou des hypothèses. L’obtention des résultats et l’interprétation sont généralement confiées à de petites équipes de spécialistes ou de consultants  réunissant des compétences informatiques, statistiques, relatives au métier, et aux techniques de communication. Les données sont préalablement réunies dans un réservoir appelé « datawarehouse ». Des tableaux de bord servent ensuite à l’élaboration de rapports destinés à une variété de publics incluant des directeurs, des chercheurs ou des utilisateurs.

Usages, modèles et théories

Bien que la technique soit encore émergente, les applications s’avèrent prometteuses et concernent des secteurs aussi divers que l’industrie, la distribution, les transports, la finance, les banques, l’assurance, la défense, la sécurité, la vie domestique ou les loisirs, la culture, la communication, le journalisme de données, la santé et les sciences. Il s’agit d’optimiser des processus, de cibler des actions, d’analyser des marchés, de détecter des opportunités ou des menaces, de mettre en évidence des phénomènes rares ou multimodaux, voire de tenter de prédire à l’aide des statistiques des évolutions probables ou de détecter des évènements récurrents, des motifs répétés. Des phénomènes subtils qui auraient été autrement ignorés ou mésestimés, car enfouis dans la masse, peuvent ainsi être mis en évidence.

Les big data concernent en simplifiant quatre grands types d’acteurs. (1) Le citoyen attend des big data qu’elles augmentent son confort, sa santé, sa sécurité. Les individus sont impliqués à différents titres. La récolte massive des données accompagne en effet la vie de toute personne connectée à internet ou à un réseau, abonnée à un service, utilisant une messagerie ou un moteur de recherche, possédant des objets connectés tel qu’un smartphone, effectuant des achats. (2) L’entreprise espère mieux connaître ses clients, développer de nouveaux marchés, vendre plus et mieux, cibler ses publicités, accroitre ses performances, optimiser ses processus. Les big data sont une des composantes de l’informatique décisionnelle (Business Intelligence). (3) Les états souhaitent rendre plus efficace leur fonctionnement, lutter contre la fraude et la délinquance, œuvrer dans le domaine de la sécurité intérieure ou extérieure, augmenter leur efficacité, évaluer et promouvoir des politiques. (4) Les big data trouvent enfin des applications dans différentes disciplines scientifiques incluant l’astronomie, la physique des particules, la biologie moléculaire, l’étude des génomes, l’environnement. Des applications à venir concerneront sans doute les humanités numériques, l’histoire, la sociologie, l’archéologie, l’information et la culture (bibliothèques, archives, musées).

Paru en 2008 dans le magazine « Wired », le célèbre éditorial de Chris Anderson « The End of Theory » montre le changement que la manipulation de pétaoctets de données induit dans les pratiques et raisonnements des scientifiques de différentes disciplines. Les big data sont souvent présentées comme un changement de paradigme. L’élaboration de théories ne serait plus nécessaire à la compréhension des phénomènes observés, la constatation de corrélations conduirait à des conclusions empiriques suffisantes pour l’action. Nous reviendrons dans un autre article sur ce billet parfois présenté comme fondateur de la philosophie des big data. « The End of Theory » reste une théorie !

Conclusion

Big Data visualisation

“Big Data visualisation” par stefanobe sur Flickr : https://www.flickr.com/photos/stefanobe/

Ainsi, – les faits d’abord et avant tout ! – nous assure l’inspirant Sherlock Homes. Mais comment résoudre une énigme lorsque le nombre d’indice dépasse le milliard et que ceux-ci sont de différentes natures ? En introduisant un changement d’échelle dans la capacité des machines à traiter de grandes quantités d’informations, les big data associées à l’informatique en nuages et aux représentations statistiques ont introduit une méthode prometteuse pour mieux comprendre notre environnement. Mais comme toute technologie, l’usage des big data présente un certain nombre de risques. Bien mis en évidence par Edward Snowden en 2013, le premier de ceux-ci est sans doute l’atteinte à la vie privée qui peut être le fait aussi bien d’états que d’entreprises. Des informations sensibles relatives à la santé, aux revenus, aux appartenances ethniques, aux opinions politiques ou religieuses, au déplacement des personnes devraient sans doute être mieux protégées qu’elles ne le sont actuellement. Ainsi, les thèmes politiques abordés par un candidat président peuvent s’appuyer en partie sur des analyses prenant en compte l’opinion momentanée et changeante des électeurs. Des questions éthiques, morales et légales se posent, susceptibles de présenter des conséquences économiques ou politiques.

D’autres aspects des big data s’avèrent plus enthousiasmants. Ce secteur en plein boom s’appuie en grande partie sur des logiciels libres, utilise des données ouvertes gouvernementales, fait grand usage des données des réseaux sociaux.Une activité effervescente se produit actuellement autour de ces technologies. Des petites entreprises se créent, des grandes entreprises mettent en place les structures et les moyens adéquats, de nouvelles formations sont proposées, de nouveaux métiers apparaissent tel que ceux de « data scientist », journaliste de données, etc. Cette agitation se base sur un rêve : celui de créer des machines à explorer les faits, le temps (Venice Time Machine, Internet Archive : WayBackMachine), les lieux (OpenStreetMap), les thèmes, les réseeaux de personnes et d’organismes, celui de transformer les données en connaissances.

Quelques exemples

Si la manipulation réelle de données de masse est réservé à des spécialistes, quelques services du web donnent une petite idée des principes mis en œuvre et de l’intérêt de tels outils pour les entreprises comme pour les scientifiques.

Ngram Viewer

Ngram Viewer - GoogleDéveloppé par Google et lancé en 2010, le service Ngram Viewer produit en temps réel une chronologie qui montre la fréquence d’emploi d’une locution dans le texte intégral des livres de Google Books. Si on admet que Google Books offre un bon reflet de la production littéraire ou scientifique mondiale, il devient possible d’étudier l’apparition ou la disparition de certaines expressions ou les noms de certains auteurs. On peut à titre d’exemple visualiser la fréquence d’emploi de termes comme “Henri Poincare” (sans l’accent), “big data”, “business intelligence”, “data visualization”. L’étude du graphique montre la stabilité d’usage du terme « Henri Poincaré » qui servira de témoin. NgramViewer peut servir d’outil pour des études de bibliométrie ou d’histoire portant sur le temps long. Essayez le service avec les termes de votre choix !

Google Trends

google-trendsLancé en 2012 avec une interface innovante, le service Google Trends permet de connaître le fréquence de recherche d’une locution dans le moteur Google. Le service affiche une chronologie, une carte des tendances par pays et une liste de recherches associées. Lorsque la question précédente est jouée de nouveau, on observe un graphe différent de celui de Ngram Viewer. L’intérêt croissant pour les big data apparait marquant dès 2011. Une case à cocher propose une prévision pour les 6 prochains mois, tentant de modéliser des phénomènes réguliers. Une fonctionnalité intégrée à la carte (voir l’évolution au fil du temps), permet de visualiser l’évolution des interrogations par pays, et de mettre ainsi en évidence des modèles de transmission de l’information propre à un pays ou passant les frontières. Google Trends permet, comme son nom l’indique, d’analyser les tendances récentes, présentant un grand intérêt dans le domaine de l’intelligence économique. Son utilisation pour des recherches relevant de la prospective ou de la sociologie est possible.

D’autres exemples

Sociétés de services françaises actives dans le « text-mining » des « big data »

Quelques liens

Poster un commentaire

Statistiques de consultation 2013 de ArchivEngines

Le rapport statistique des consultations de 2013 vient de paraître. Bravo aux statisticiens de WordPress. 4 billets ont été publiés cette année.

Merci de votre intérêt et de vos réactions, et rendez-vous pour de nouveaux posts en 2014 !
Pierre Couchet

Mois et années

jan fév mar avr mai juin juil août sept oct nov déc Total
2011 14 56 70
2012 98 138 93 128 640 557 457 299 428 726 669 745 4  978
2013 819 848 976 1  193 1  181 1  029 1  064 854 2  092 1  915 1  791 1  803 15  565
2014 33 33

Cliquez ici pour voir le rapport complet.

Poster un commentaire

Archivage dans l’industrie automobile

Deux articles récents viennent mettre en évidence le rôle de l’archivage dans le secteur de l’industrie automobile. Des volumes importants de données sont versés dont la durée de préservation nécessaire peut dépasser les 30 ans. La dématérialisation des documents a permis de rendre en grande partie obsolète la microphotographie et le papier. Un SAE (Système d’Archivage Électronique) permet de gérer l’archivage, la recherche et la restitution des documents électroniques. De manière plus générale et d’après une étude européenne menée par Coleman Parkes Research pour RICOH, les PME seraient mieux préparées que les grandes entreprises au changement important que constitue la dématérialisation des documents.

L’archivage, un outil de productivité pour PSA, 2013, Les Échos, Yves Sarazin : http://technologies.lesechos.fr/gestion-de-contenus/l-archivage-un-outil-de-productivite-pour-psa_a-38-852.html

Archivage : Comment PSA range ses documents, 2013, L’Usine Nouvelle, Ridha Loukil : http://www.usinenouvelle.com/article/archivage-comment-psa-range-ses-documents.N193988

Une perspective nouvelle : la gouvernance documentaire, 2013, RICOH : http://thoughtleadership.ricoh-europe.com/fr/anewperspective/

Informations en provenance de PIAF, un portail réalisé par l’Association internationale des archivistes francophones (AIAF) et le Conseil International des Archives (CIA). Des formations en ligne gratuites et de nombreuse informations relatives à l’archivage sont proposées : http://www.piaf-archives.org/

et de Archimag : http://www.archimag.com/article/course-numerique-PME-mieux-préparées-grandes-entreprises

Poster un commentaire

Corpus scientifique numérique et ouvert, small data

Il n’est pas rare que des scientifiques soient amenés à rassembler une dizaine à plusieurs centaines de documents pour former un corpus qui servira de base à une ou plusieurs publications. Il peut aussi s’agir de partager des sources numériques, de comprendre des phénomènes complexes, de montrer, démontrer ou enseigner. Des items relatifs à un sujet, à un évènement ou à un lieu, à une personnalité remarquable, à une pratique professionnelle, culturelle ou sociale, à un organisme sont alors rassemblés. Ces documents peuvent provenir d’archives (ouvrage ancien, photo, document audio ou vidéo, correspondance, plan, carte, dessin, manuscrit, reconstitution 3D, tableau de données, données), de bibliothèques (article, thèse, livre, rapport) ou de musées. Des choix éditoriaux doivent être faits. Un objet isolé n’éclaire pas la recherche. Seul  le nombre et la diversité permet de faire émerger des tendances, des évènements marquant des ruptures, de mettre en évidence des relations, dépendant de paramètres comme le temps, le lieu ou l’environnement. Des scientifiques de différentes disciplines peuvent utiliser le même corpus, apportant chacun leur propre regard, ou conduisant à sa modification, conduisant à l’émergence d’une communauté. La démarche concerne aussi bien les Sciences Humaines (linguistique, histoire, ethnologie, philosophie, archéologie, sociologie) que les Sciences dites exactes (biologie, médecine, environnement).

L’usage de données numériques présente alors de nombreux avantages. Des scientifiques itinérants ou des équipes délocalisées peuvent travailler à distance. Des analyses statistiques des métadonnées ou des contenus permettent de mettre en évidence des thèmes, le rôle de personnes ou d’organismes, des relations. Si certains corpus tiennent de la base bibliographique, d’autres rassemblent de nombreux objets d’archive qu’il convient de gérer. Des précautions particulières doivent alors être prises pour classer et préserver sur le long terme les fichiers qui peuvent résulter de couteuses numérisations. Les métadonnées peuvent inclure des transcriptions, des traductions ou des annotations. Des objets de différentes provenances (archives, bibliothèques, musées, internet) peuvent être ainsi rassemblés.

Des questions juridiques doivent être résolues. L’utilisation de licences « Creative Commons », « Domaine public » ou « Etalab » facilite les échanges. Le crowdsourcing (la réalisation de transcriptions ou de traductions par une communauté élargie), voire le crowdfounding (des apports financiers individuels ou collectifs destinés à l’avancement du projet) deviennent possibles. Des difficultés d’ordre technique ou financier se posent encore bien évidemment.

Cependant, l’élaboration d’un corpus ne constitue qu’une première étape de la démarche scientifique. Comme le précise plaisamment Henri Poincaré dans son fameux livre “La science et l’hypothèse” : “On fait la science avec des faits, comme on fait une maison avec des pierres : mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est une maison”. Au-delà des objectifs de collecte, les corpus nécessitent diverses interprétations pour prendre sens. L’étude conduit en général à la publication de livres, de thèses, de rapports, d’articles, ou encore à la production d’enseignements, d’expositions, de films documentaires. Soutenus en France au niveau national et régional, le corpus est un outil majeur des Humanités numériques.

Quelques exemples provenant de différentes disciplines complètent cet article. Même s’ils ne sont pas assez nombreux et détaillés pour constituer corpus !, ils permettent de mieux se rendre compte de l’ancienneté, de la diversité et de la fécondité de la méthode. L’expertise s’avère nécessaire aussi bien lors du choix des documents que lors de l’interprétation. Des partis pris, des conflits d’intérêts, des ignorances peuvent éventuellement fausser des résultats. Une communauté d’experts appuyée par différents corps de métiers incluant des spécialistes de la numérisation, de l’informatique, de la documentation, de la communication, du droit conduit généralement à la réussite d’un projet. Si l’ouverture des données et l’interopérabilité sont privilégiés, cette aventure collective peut devenir profitable pour la science et l’enseignement , voire le grand public.

Corpus : http://fr.wikipedia.org/wiki/Corpus
Crowdsourcing : http://fr.wikipedia.org/wiki/Crowdsourcing
Guide pratique pour la production de corpus numérique (en SHS) : http://www.mutec-shs.fr/sites/www.mutec-shs.fr/files/Guide%20pratique%20pour%20la%20production%20de%20corpus%20num%C3%A9rique_0.pdf
Source primaire : http://fr.wikipedia.org/wiki/Source_primaire
Crowdfounding sur Gallica (BNF) : http://www.amisbnf.org/books.html

Quelques exemples de corpus

Les corpus sont utilisés depuis l’antiquité grecque au moins. Diogène Laërce dans sa liste des œuvres d’Aristote montre l’existence d’un ouvrage dont seul le titre est parvenu jusqu’à nous : “Des Constitutions des villes (cent cinquante-huit) et en particulier des constitutions démocratiques, oligarchiques, aristocratiques et tyranniques”. Un corpus de textes ou de récits oraux a dû préexister à l’écriture de l’ouvrage disparu. Attribué aussi à Aristote et à ses élèves, “Constitution d’Athènes” permet de mieux se rendre compte du contenu possible à savoir l’histoire politique et sociale des cités grecques. Le corpus donne alors lieu à l’ouvrage majeur d’Aristote : les Politiques.

Catalogue_des_œuvres_d’Aristote_selon_Diogène_Laërce : http://fr.wikipedia.org/wiki/Catalogue_des_œuvres_d’Aristote_selon_Diogène_Laërce
Constitution_d’Athènes : http://fr.wikipedia.org/wiki/Constitution_d’Athènes
Constitution d’Athènes, Aristote : http://remacle.org/bloodwolf/philosophes/Aristote/tableconstitution.htm les Politiques : https://fr.wikipedia.org/wiki/Politique_%28Aristote%29

1486, Jean Pic de la Mirandole publie en vue d’en débattre publiquement à Rome “Conclusiones philosophicae, cabalasticae et theologicae” (900 conclusions philosophiques, cabalistiques et théologiques), une oeuvre en latin basée sur la lecture et sur une tentative de synthèse des textes de Platon, d’Aristote, de l’hermétisme et de la Kabbale. Sa démarche lui vaudra d’être considéré comme hérétique. Son oeuvre sera 200 ans plus tard vertement critiquée par Voltaire : « Il est encore plus extraordinaire que ce prince, ayant étudié tant de langues, ait pu à vingt-quatre ans soutenir à Rome des thèses sur tous les objets des sciences, sans en excepter une seule. On trouve à la tête de ses ouvrages quatorze cents conclusions générales sur lesquelles il offrit de disputer. (..) L’histoire du prince de La Mirandole n’est que celle d’un écolier plein de génie, parcourant une vaste carrière d’erreurs, et guidé en aveugle par des maîtres aveugles».

Jean Pic de la Mirandole : http://fr.wikipedia.org/wiki/Jean_Pic_de_la_Mirandole

Mathématicien, physicien, philosophe et ingénieur français, Henri Poincaré (1854-1912) a établi une volumineuse correspondance, échangeant avec sa famille et avec d’autres scientifiques de différentes disciplines. Le LHSP-AHP (CNRS) publie un corpus en accès libre comprenant plus de 2000 lettres numérisées, écrites de la main de Poincaré ou dont il est le destinataire. L’étude inclue des transcriptions et des annotations mettant en évidence les thèmes et les réseaux sociaux du savant, et de retracer le contexte scientifique, culturel ou social précédant la première guerre mondiale. Le laboratoire a produit jusqu’à présent 2 ouvrages relatifs à cette correspondance.

Henri Poincaré : http://fr.wikipedia.org/wiki/Henri_Poincaré
La correspondance d’Henri Poincaré : https://www.univ-nancy2.fr/poincare/chp/
“La correspondance entre Henri Poincaré et Gösta Mittag-Leffler”, Philippe Nabonnand, 1999 : http://www.springer.com/birkhauser/mathematics/book/978-3-7643-5992-8
La correspondance entre Henri Poincaré et les physiciens, chimistes et ingénieurs, Scott Walter et al., 2007 : http://www.springer.com/birkhauser/history+of+science/book/978-3-7643-7136-4

En plus de ses travaux de recherche, l’Inserm assume une mission d’expertise scientifique indépendante auprès des décideurs agissant dans le domaine de la santé publique (ministères, agences, caisses d’assurance maladie, mutuelles, associations…). La réalisation de ces expertises suit une procédure bien établie incorporant la mise au point préalable d’un corpus. Des articles et documents sont sélectionnés en relation avec les questions scientifiques d’un cahier des charges, puis sont remis à un groupe d’experts de divers champ de compétences. Le fonds documentaire est actualisé durant l’expertise et complété. L’Inserm a ainsi publié depuis 1994 prés de 70 expertises collectives sur des sujets médicaux et de santé publique très divers, apportant l’éclairage nécessaire aux prises de décisions en matière de soins, de dépistage et de prévention. Les rapports sont accessibles librement.

Principes et méthodes de l’expertise collective à l’Inserm :
http://www.ipubli.inserm.fr/themes/Inserm_ExpColl/static/methodologie.html
Archive des expertises collectives :
http://www.inserm.fr/thematiques/sante-publique/expertises-collectives/archives-des-expertises-collectives

Nicole Loupvent quitte en 1531 son abbaye, de Saint-Mihiel en Meuse, pour se rendre à Jérusalem. Tout au long du voyage, qui durera 3 mois, il prendra des notes qui lui serviront à faire un récit au jour le jour, et qu’il consignera dans deux manuscrits conservés à la bibliothèque bénédictine de Saint-Mihiel. Réalisé par l’Université de Lorraine, le site www.domloupvent.fr rassemble plus de 100 vidéos comprenant un film documentaire et des interviews d’enseignants et de chercheurs. Quelques manuscrits originaux accompagnés d’une transcription viennent compléter le site destiné à l’enseignement et à un large public amateur d’histoire de la renaissance et d’histoire des religions.

Le site référencé sur « Université ouverte des humanités » : http://www.uoh.fr/front/notice?id=5d17a5a6-75e0-4668-a1b5-6933d66e327e
La coexistence religieuse au XVIe siècle et aujourd’hui, à partir de l’histoire du pèlerinage de Dom Loupvent en 1531 (formation numérique) : http://rpn.univ-lorraine.fr/UOH/DOMLOUPVENT/co/domloupvent_web.html
Dom loupvent , Voyage d’un lorrain en Terre Sainte au XVIème siècle  (livre) : http://livre.fnac.com/a2025761/P-Martin-Dom-loupvent

De nombreux autres exemple touchant d’autres domaines scientifiques comme l’environnement avec les travaux du GIEC auraient pu être pris. La méthode scientifique est commune et s’apparente à celle de l’enquête dans laquelle il s’agit de trouver le vrai, de démontrer en réunissant de nombreux indices…

Poster un commentaire

Des archives traditionnelles aux archives numériques

tabletteLe passage du papier au numérique correspond à un changement majeur, ayant un impact important sur les fonctionnalités et les services des archives.  Si l’électronique offre de nouvelles possibilités concernant la diffusion, la préservation sur le long terme des fichiers numériques nécessite un ensemble de précautions spéciales. Ce véritable savoir-faire technologique s’avère partagé par les professionnels des institutions de mémoire que sont les bibliothèques, les archives et les musées.

Depuis plusieurs centaines d’années, voire peut être depuis l’invention de l’écriture en Mésopotamie il y a 5300 ans, les archives assurent l’acquisition, le stockage et la restitution sur le long terme de documents de toutes natures. S’il s’agissait alors souvent de consigner des transactions commerciales, avec valeur de preuve, sur des tablettes d’argile, les archives gèrent de nos jours des textes sur papier, mais aussi des images, des manuscrits, des cartes, et de manière plus récente des documents audios – sons et vidéos -, ou des documents nativement numériques de toutes sortes – documents bureautiques, mails, sites web, objets 3D, code informatique, bases de données, systèmes de fichiers, etc. De manière traditionnelle, l’archivistique distingue les archives courantes, intermédiaires ou définitives, selon que la durée de préservation souhaitée est faible, moyenne ou longue. Archives courantes et intermédiaires sont régies par les règles du Records Management. Les documents suivent en effet un cycle de vie au cours duquel les droits de consultation peuvent changer. Des tris sont effectués régulièrement, pouvant aboutir à la destruction éventuelle de documents ou à leur préservation définitive. Alors que les bibliothèques classent leurs fonds par thèmes, les archives préoccupées de préservation définitive, comme les musées les organisent en collections marquant l’origine des documents. Des métadonnées permettent de décrire de manière précise les contenus, les localisations, les droits et les traitements effectués. Les activités des archives sont fortement formalisées et régies par un ensemble de bonnes pratiques, de recommandations et de normes susceptibles d’assurer la préservation des données et éventuellement l’interopérabilité.

Les archives numériques

cloud

Différentes améliorations technologiques survenues entre 1990 à 2010 ont rendu possible l’archivage numérique. On note les progrès des appareils – PC, tablettes, smartphones, télévisions connectées, scanneurs, etc, et l’émergence des formats majeurs de l’archivage numérique tels que TIFF, JPEG ou PDF. D’autres points critiques concernent les performances des réseaux, les progrès dans le domaine des logiciels. Même si le supports papier reste d’importance majeure pour les documents anciens, de très nombreuses archives sont maintenant accessibles via le web, depuis une variété de terminaux, rendant aisé et instantané l’accès aux données et la duplication des fichiers.

Mais de nouveaux risques sont aussi apparus, rendant les objets potentiellement impossibles à consulter. Ceux-ci incluent les changements relatifs aux matériels et aux formats, les erreurs dans les copies, les usures des supports, l’activité des logiciels malveillants, alors que des risques traditionnels perdurent comme les erreurs humaines, les malversations d’origine interne ou externe, vols, incendies et inondations. La préservation des documents numériques sur le long terme – plus de 20 ans – nécessite des précautions particulières. Et c’est le modèle OAIS, publié dans une première version en 2002, qui propose un modèle fonctionnel théorique basé sur l’expérience et des solutions. Mis au point dans le domaine de l’aérospatial, le modèle s’avère assez général et concerne aussi bien les aspects informatiques que l’organisation humaine et administrative ou les aspects légaux. Il s’agit notamment de préserver des copies de données en des endroits distants, de vérifier régulièrement l’intégrité des fichiers archivés, l’usage effectif des formats de données, de renseigner des métadonnées décrivant les documents, en interaction avec une communauté cible d’utilisateurs. Un élément important peu évoqué dans le modèle OAIS concerne l’interopérabilité des solutions logicielles mises en place. Le respect de normes rend possible l’échange de documents et de métadonnées entre logiciels distants. L’intérêt est d’autant plus grand que la durée de vie des objets et des métadonnées dépasse la durée de vie des logiciels et des technologies employés. L’interopérabilité facilite un changement de système informatique en fin du cycle de vie d’un logiciel d’archivage.

Une panoplie de solutions techniques s’offre pour la mise en ligne. On peut opter pour une solution mutualisée, dans laquelle un logiciel maintenu par une structure spécialisée sera utilisé par différents organismes. Un logiciel peut aussi être installé et maintenu sur le long terme, ce qui peut être fait par l’organisme archiveur, ou bien par une société de service qui se charge de tous les aspects informatiques – on parle de solution Saas (Software as a service). La gestion délocalisée des archives rencontre un important succès, surtout auprès des organismes et entreprises de petite ou moyenne dimension. Mais elle suscite aussi des questions en terme de coût ou de respect de la confidentialité des données.

Les métadonnées

icebergLe titre, l’auteur, le type de document, la date, les droits, la collection d’appartenance, le classement ou l’empreinte d’un fichier sont quelques unes des métadonnées importantes. Des éléments comme le texte résultant d’une reconnaissance optique de caractère, ou d’une transcription font aussi partie des métadonnées particulièrement utiles pour la recherche ou l’étude des documents originaux. Les formats de métadonnées dépendent du métier. Les archives utilisent souvent les format EAD (Encoded Archival Description) ou ISAD (G) (International Standard Archival Description-General). Les formats dérivés de MARC tels que UNIMARC, MARC 21 / MARC XML, MODS, de même que FRBR (Functional Requirements for Bibliographic Records) décrivent les documents des bibliothèques. Le shéma PREMIS concerne spécifiquement les métadonnées de préservation. TEI (Text Encoding Initiative) sert à l’encodage des transcriptions des textes manuscrits ou des documents audios. Dublin Core permet une description en première approche de documents numériques de tous types, que ceux-ci proviennent d’archives, de bibliothèques, de musées, de corpus ou de pages webs simples ou dynamiques. Le web sémantique propose l’utilisation d’ontologies pour caractériser les objets physiques ou numériques. On peut distinguer les ontologies de bas niveau, décrivant bien des éléments particuliers d’un objet numérique. Des ontologies de haut niveau permettent de décrire l’ensemble des entités d’un domaine d’application. On peut citer parmi celles-ci shema.org ou la norme internationale CIDOC-CRM. Quelque soit le vocabulaire employé, en prônant l’ouverture des données et des métadonnées dans le respect des droits de copie, les technologies du » web sémantique » ou « web des données » devraient s’imposer sur le long terme.

Types d’archives

Différents types d’archives peuvent être distingués sur la base du contenu, de l’accès ou du mode de gestion. Les archives des entreprises, du commerce, de l’industrie, de la finance, de la santé relèvent du Records Management et contiennent des données préservées pour des raisons légales, commerciales ou techniques. Ce sont souvent les administrations locales, régionales ou nationales, les structure de l’enseignement et de la culture qui ont  pour mandat la gestion d’archives définitives. Certaines archives sont spécialisées dans la gestion des types particuliers de documents, la vidéo par exemple. Des archives mixtes gèrent en parallèle des documents physiques et numériques. Les archives ouvertes proposent des documents librement accessibles. L’auto-archivage indique que les versements sont réalisés par les auteurs eux-mêmes des documents. Les Entrepôts institutionnels ou Archives Institutionnelles fréquemment déployés dans les milieux universitaires désignent des archives ouvertes, pouvant fonctionner en mode auto-archivage et rassemblant des thèses, des articles scientifiques et des rapports. On peut finalement citer le cas des archives personnelles ou familiales.

Une convergence inattendue

convergence

Une convergence inattendue ?

Un cœur de métier commun réunit non seulement les archives, mais aussi les bibliothèques, les musées et les corpus scientifiques de la recherche. Il s’agit d’acquérir, de stocker, et de diffuser à destination d’un public ciblé un nombre variable de documents auxquels sont associés des métadonnées. Cette communauté de pratique des institutions de mémoire est visible à travers l’utilisation de vocabulaires communs comme le CIDOC-CRM, de sites comme LODLAM (Linked Open Data in Libraries Archives and Museums) ou d’initiatives internationales comme celles de l’OCLC (Online Computer Library Center). Les différences tiennent principalement en termes informatiques à la nature des objets, aux workflows et à la scalabilité, c’est à dire la capacité des programmes informatiques à gérer de gros volumes de données. La présence d’interfaces de programmations ou API incluant OAI-PMH ou OAI-ORE pour les archives ouvertes, Z39.50 pour les bibliothèques, ou SPARQL pour les outils du web sémantique permet d’augmenter l’interopérabilité. Le web sémantique propose en effet un ensemble de méthodes qui devrait faire évoluer les fonctionnalités non seulement des archives numériques, mais aussi de de tout un ensemble d’outils du web incluant les moteurs de recherche. Il deviendra sans doute très prochainement plus facile de trouver des réponses pertinentes à des questions aussi différentes que : « Quels sont les livres dont Poincaré est l’auteur? » ou bien « Quels auteurs ont écrit des livres sur Poincaré ? »(*).

(*) : Une réponse proposées par le SUDOC (Système Universitaire de Documentation) se trouve ici.

D’autres informations sur Poincaré obtenues avec fr.dbpedia.org, une base sémantique extrayant automatiquement les éléments factuels contenus dans la version française de wikipedia.

Archives et bibliothèques numériques à visiter

  • Archives de France : ressources en ligne

  • Archives départementales de Meurthe et Moselle : ressources en ligne

  • Institut National de l’audiovisuel : l’audiovisuel : ressources en ligne
  • Gallica est la bibliothèque numérique de la BNF. Elle contient plus de 2,5 millions de documents de nature variée – livres, manuscrits, cartes et plans, estampes, photographies, affiches, etc.

  • Gérée par le CCSD – CNRS, HAL est une archive institutionnelle ouverte utilisée par les établissements de recherche, les universités et les grandes écoles françaises.

  • iRevues (INIST-CNRS) contient des revues anciennes et modernes de tous domaines scientifiques.
  • Persée (Université de Lyon, ENS, CNRS) contient des revues et des livres de Sciences Humaines.

  • Numdam (Université de Grenoble, CNRS) archive des revues françaises anciennes de Mathématiques.

  • Centre Informatique National de l’Enseignement Supérieur (CINES). Le CINES est mandaté pour archiver à long terme les données numériques de la communauté scientifique et technique française. Il travaille en collaboration avec différents organismes dont le TGIR Huma-Num du CNRS notamment.
  • arXiv est une archive ouverte qui rassemble plus de 2 millions de publications dans les domaines des Mathématiques et de la Physique.

  • HathiTrust contient plus de 10 millions de livres numérisés, produits à 96.4% par Google et localisés dans 18 bibliothèques universitaires Nord américaines (chiffres de 2013).

  • Europeana donne accès à des millions de livres, de peintures, de films, d’objets des musées et des archives, numérisés par différentes institutions européennes.

  • Digital Public Library of America rassemble plus de 2 millions de documents provenant de différentes archives, bibliothèques et musées américains. Des expositions numériques thématiques sont réalisées.

Archives courantes et intermédiaires

Comment passer des archives papiers aux archives électroniques ? Quelles étapes respecter pour mener à bien un projet d’archivage électronique ? Et la valeur probante… ? Une courte présentation de Jacques Léret. http://www.youtube.com/watch?v=1zxOoO2BEcQ

Voir aussi sur Wikipédia

Archivage électronique, Archives, Archivistique, CIDOC Conceptual Reference Model, Cycle de vie (document), Débuts de l’écriture en Mésopotamie, Description archivistique encodée (EAD), Dublin Core, Fonds d’archive, Gestion des documents d’archives, Gestion électronique des documents, Interface de programmation (API), JPEG, Libre accès (édition scientifique), Machine-Readable Cataloging, Metadata Object Description Schema, Métadonnée, Norme générale et internationale de description archivistique (ISAD-G), Open Archival Information SystemOpen Archives Initiative Protocol for Metadata Harvesting, Portable Document Format, Preservation Metadata: Implementation Strategies (PREMIS), Spécifications fonctionnelles des notices bibliographiques, Système d’archivage électronique, Tagged Image File Format, Web sémantique, Workflow

Poursuivre la lecture

Outils de veille

4 Commentaires

Format PDF et archivage numérique

logo-pdfCréé par Adobe Systems en 1993, le format PDF (Portable Document Format) est devenu un standard de fait pour la lecture et pour l’impression de document textuels, dans les domaines de l’édition et de l’ingénierie (plans). L’avantage principal du format réside dans sa portabilité, autrement dit sa compatibilité multiplateforme (c’est l’objectif de conception initial). Le format préserve les polices, les images, les objets graphiques et la mise en forme quelque soit l’appareil ou l’application utilisés pour la lecture. Certaines variantes du format permettent d’embarquer des fichiers du type texte, image, son, vidéo, illustration 3D, etc. Les tables des matières et les métadonnées peuvent être prises en compte. C’est l’un des formats de référence pour l’archivage à long terme des données textuelles.

Dans le domaine des textes anciens, les fichiers PDF permettent de stocker en parallèle l’image d’une page numérisée et le texte résultant d’une opération d’OCR, assurant un rendu proche de l’original. Il faut cependant noter que la qualité du texte résultant de l’OCR dépend de la typographie du document d’origine, de la qualité de la numérisation, des performances du logiciel de reconnaissance optique de caractère. Des corrections manuelles sont possibles et un pourcentage d’erreur peut être précisé de manière contractuelle avec un fournisseur. Le texte PDF peut ensuite être indexé par un moteur et recherche.

PDF est un format binaire ouvert, et Adobe Systems accorde une licence gratuite à ceux  qui souhaitent développer des fonctionnalités de lecture ou de création de fichier PDF. Cependant le format reste une propriété d’Adobe qui est seul à même de réaliser de nouvelles versions. L’histoire du format s’avère complexe, et cela peut poser question aux spécialistes de l’archivage à long terme des données numériques.

De nombreuses versions du format sont en effet disponibles dont  certaines sont normalisées par  l’ISO (International Organization for Standardization). Le format PDF 1.7 est normalisé depuis 2008, les formats destinées à l’archivage à long terme – PDF/A1, PDF/A2, PDF/A3 – le sont respectivement depuis 2005, 2011 et 2012, garantissant la possibilité future de toujours disposer d’un outil de visualisation. Le dernier format en date, le PDF 2.0 est en cours de normalisation.

Réalisé en français par le CINES (Centre Informatique National de l’enseignement supérieur) en collaboration avec la société NUMEN, financé par le Ministère de la Culture, diffusé par le TGE Adonis et par le SIAF (Service interministériel des Archives de France), un récent guide ainsi qu’un diaporama réalisés par Nick Parker permettent d’éclairer les utilisateurs francophones sur les formats PDF, les fonctionnalités et les versions les mieux adaptées pour l’archivage :

Guide méthodologique : Le format de fichiers PDF, Nick Parker, Olivier Rouchon, 2012
http://www.tge-adonis.fr/ressources/guide-methodologique-le-format-de-fichiers-pdf/13-aout-2012

Le format des fichiers PDF, Nick Parker, réunion du 4 janvier 2013 du groupe PIN (Pérennisation des Informations Numériques) : http://pin.association-aristote.fr/lib/exe/fetch.php/public/presentations/2013/pin20130104_1pdf.pdf

PDF to PDF/A: Evaluation of Converter Software for Implementation in Digital Repository Workflow : http://koojamin.com/v2/wp-content/uploads/2013/04/iPRES_PAPER86_Abstract.pdf

Proposé par le site ScholRev à l’occasion de la rencontre « Jailbreaking the PDF Hackaton », une liste d’outils libres permet de manipuler les données et les métadonnées des documents PDF.

Partridge

xpdf

poppler PDF tools

PDFMiner

PDFBox

PDF2SVG

PDFExtract

pdf-extract

PDFX

ParsCit + SectLabel

pdf2xml (1)

Grobid

pdf2xml (2)

JPedal

LA-PDFText

pdf2htmlEX

Biblio::Citation::Parser

Python NLTK

Poster un commentaire