Corpus scientifique numérique et ouvert, small data

Il n’est pas rare que des scientifiques soient amenés à rassembler une centaine de documents, voire quelques milliers, pour former un corpus qui servira de base à une ou plusieurs études. Il peut s’agir de partager des sources primaires numérisées, de créer une bibliothèque ou une médiathèque de documents rares dans le but de comprendre des phénomènes complexes, de montrer, démontrer ou bien d’enseigner l’histoire, la sociologie, la géographie ainsi que d’autres disciplines. Des documents relatifs à un sujet, à un événement ou à un lieu, à une personnalité remarquable, à une pratique professionnelle, culturelle ou sociale, à un organisme sont alors rassemblés.

Ces documents peuvent provenir d’archives (ouvrage ancien, photo, document audio ou vidéo, correspondance, manuscrits, plan, carte, dessin, reconstitution 3D, tableau de données), de bibliothèques (article, thèse, livre, rapport) ou de musées. Des choix éditoriaux doivent être faits. Un objet isolé n’éclaire pas la recherche. Seul  le nombre et la diversité permettent de faire émerger des tendances, des faits marquant, des ruptures, de mettre en évidence des relations, de montrer l’influence de paramètres. Des scientifiques de différentes disciplines peuvent utiliser le même corpus, apportant chacun leur propre regard. Une archive numérique est susceptible de fédérer une véritable communauté. Elle peut être également l’outil principal d’un seul chercheur. Une archive, une bibliothèque ou un musée virtuel peuvent être ainsi créés.

L’usage de données numériques présente en effet de nombreux avantages. Des scientifiques itinérants ou des équipes délocalisées peuvent ainsi travailler à distance. Des analyses quantitatives peuvent mettre en évidence des thèmes, le rôle de personnes ou d’organismes, des relations. Si certains corpus tiennent de la base bibliographique, d’autres rassemblent des images, des vidéos, des histoires orales. Des précautions particulières doivent être prises pour classer et préserver sur le long terme les fichiers numériques. Un fichier peut être en effet considéré comme perdu si des métadonnées ne lui sont pas associées : titre, date, description, voire transcription, traduction ou annotation.

Dans le cas d’un accès public, des questions juridiques relatives au droit de reproduction se posent. L’utilisation de licences « Creative Commons », « Domaine public » ou « Etalab » facilite les échanges. Le crowdsourcing (la réalisation de transcriptions ou de traductions par une communauté élargie), voire le crowdfounding (des apports financiers individuels ou collectifs destinés à l’avancement du projet) deviennent possibles.

Cependant, l’élaboration d’un corpus ne constitue qu’une première étape de la démarche scientifique. Au-delà des objectifs de collecte, les corpus nécessitent assurément des interprétations pour prendre sens. Des histoires doivent être racontées. Des théories peuvent être élaborées et confrontées au réel. Comme le précise plaisamment Henri Poincaré  “On fait la science avec des faits, comme on fait une maison avec des pierres : mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est une maison”. Un important travail intellectuel fait suite à l’élaboration d’un corpus.

L’étude conduit en général à la publication de livres, de thèses, de rapports, d’articles, ou encore à la production d’enseignements, d’expositions, de films documentaires. Soutenus en France au niveau national et régional, l’élaboration de corpus est un outil majeur des Humanités numériques. Quelques exemples de corpus complètent cet article. Même s’ils ne sont pas assez nombreux et détaillés pour constituer un corpus de corpus, un méta-corpus en quelque sorte, ils permettent de mieux se rendre compte de l’ancienneté, de la diversité et de la fécondité de la méthode.

Une communauté d’experts appuyée par différents corps de métiers incluant des spécialistes de la numérisation, de l’informatique, de la documentation et des métadonnées, de la communication, du droit conduit généralement à la réussite du projet. Si l’ouverture des données et l’interopérabilité sont privilégiés, cette aventure collective peut devenir profitable pour la science et l’enseignement, voire intéresser le grand public.

Au final, la méthode s’apparente à celle de l’enquête dans laquelle il s’agit de réunir des indices susceptibles de constituer des preuves. La démarche peut se poursuivre sur la durée à condition qu’une maintenance des logiciels et des liens externes soient prévue. L’humilité doit rester de mise. L’expérience montre que toujours certains faits nous échappent, restent inaccessibles, n’ont pas laissé de trace et ont cependant joué un rôle, sont inexpliqués ou bien mal compris. Quelques exemples de corpus concluent ce billet.

Cinq exemples de corpus

1. Les Politiques, Aristote

Les corpus sont utilisés depuis l’antiquité grecque au moins. Diogène Laërce dans sa liste des œuvres d’Aristote montre l’existence d’un ouvrage dont seul le titre est parvenu jusqu’à nous : “Des Constitutions des villes (cent cinquante-huit) et en particulier des constitutions démocratiques, oligarchiques, aristocratiques et tyranniques”. Un corpus de textes ou de récits oraux a dû préexister à l’écriture de l’ouvrage disparu. Attribué aussi à Aristote et à ses élèves, “Constitution d’Athènes” permet de mieux se rendre compte du contenu possible à savoir l’histoire politique et sociale des cités grecques. Le corpus donne lieu à un ouvrage majeur d’Aristote : « Les Politiques », introduction historique classique des sciences politiques antiques.

  • Catalogue_des_œuvres_d’Aristote_selon_Diogène_Laërce : Lien
  • Constitution des Athéniens : Lien
  • Constitution d’Athènes, Aristote, par Haussoulier : Lien
  • Politique (Aristote) : Lien

2. Conclusiones philosophicae, cabalasticae et theologicae

1486, Jean Pic de la Mirandole publie en vue d’en débattre publiquement à Rome “Conclusiones philosophicae, cabalasticae et theologicae” (900 conclusions philosophiques, cabalistiques et théologiques), une œuvre en latin basée sur une tentative de synthèse des textes de Platon, d’Aristote, de l’hermétisme et de la Kabbale. Sa démarche lui vaudra d’être considéré comme hérétique. Son ouvrage sera 200 ans plus tard vertement critiquée par Voltaire : « Il est encore plus extraordinaire que ce prince, ayant étudié tant de langues, ait pu à vingt-quatre ans soutenir à Rome des thèses sur tous les objets des sciences, sans en excepter une seule. On trouve à la tête de ses ouvrages quatorze cents conclusions générales sur lesquelles il offrit de disputer. (..) L’histoire du prince de La Mirandole n’est que celle d’un écolier plein de génie, parcourant une vaste carrière d’erreurs, et guidé en aveugle par des maîtres aveugles».

  • Jean Pic de la Mirandole : Lien

3. La correspondance d’Henri Poincaré

Mathématicien, physicien, philosophe et ingénieur français, Henri Poincaré (1854-1912) a établi une volumineuse correspondance, échangeant avec sa famille et avec d’autres scientifiques de différentes disciplines. Le LHSP-AHP (CNRS) publie un corpus en accès libre comprenant plus de 2000 lettres numérisées, écrites de la main de Poincaré ou dont il est le destinataire. L’étude inclue des transcriptions et des annotations mettant en évidence les thèmes et les réseaux sociaux du savant. Et de retracer le contexte scientifique, culturel et social précédant la première guerre mondiale.

4. Archives des Expertises collectives de l’Inserm

En plus de ses travaux de recherche, l’Inserm assume une mission d’expertise scientifique indépendante auprès des décideurs agissant dans le domaine de la santé publique (ministères, agences, caisses d’assurance maladie, mutuelles, associations…). La réalisation de ces expertises suit une procédure bien établie incorporant la mise au point préalable d’un corpus. Des articles et documents sont sélectionnés en relation avec les questions scientifiques d’un cahier des charges, puis sont remis à un groupe d’experts de divers champ de compétences. Le fonds documentaire est actualisé durant l’expertise et complété. L’Inserm a ainsi publié depuis 1994 prés de 70 expertises collectives sur des sujets médicaux et de santé publique très divers, apportant l’éclairage nécessaire aux décisions publiques en matière de soins, de dépistage et de prévention. Les rapports sont accessibles librement.

  • Principes et méthodes de l’expertise collective à l’Inserm : Lien
  • Archives des expertises collectives : Lien

5. Le voyage de Dom Loupvent

Nicole Loupvent quitte en 1531 son abbaye, de Saint-Mihiel en Meuse, pour se rendre à Jérusalem. Tout au long du voyage, qui durera 3 mois, il prendra des notes qui lui serviront à faire un récit au jour le jour, et qu’il consignera dans deux manuscrits conservés à la bibliothèque bénédictine de Saint-Mihiel. Réalisé par l’Université de Lorraine, le site www.domloupvent.fr rassemble plus de 100 vidéos comprenant un film documentaire et des interviews d’enseignants et de chercheurs. Quelques manuscrits originaux accompagnés d’une transcription viennent compléter le site destiné à l’enseignement et à un large public amateur d’histoire de la renaissance et d’histoire des religions.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s