Corpus scientifique numérique et ouvert, small data

Il n’est pas rare que des scientifiques soient amenés à rassembler une dizaine à plusieurs centaines de documents, voire quelques milliers, pour former un corpus qui servira de base à une ou plusieurs publications. Il peut aussi s’agir de partager des sources numériques, de comprendre des phénomènes complexes, de montrer, démontrer ou enseigner. Des items relatifs à un sujet, à un événement ou à un lieu, à une personnalité remarquable, à une pratique professionnelle, culturelle ou sociale, à un organisme sont alors rassemblés. Ces documents peuvent provenir d’archives (ouvrage ancien, photo, document audio ou vidéo, correspondance, plan, carte, dessin, manuscrit, reconstitution 3D, tableau de données, données), de bibliothèques (article, thèse, livre, rapport) ou de musées. Des choix éditoriaux doivent être faits. Un objet isolé n’éclaire pas la recherche. Seul  le nombre et la diversité permet de faire émerger des tendances, des faits marquant des ruptures, de mettre en évidence des relations, dépendant d’éléments comme le temps, le lieu ou l’environnement. Des scientifiques de différentes disciplines peuvent utiliser le même corpus, apportant chacun leur propre regard, conduisant à l’émergence d’une communauté. La démarche concerne aussi bien les Sciences Humaines (linguistique, histoire, ethnologie, philosophie, archéologie, sociologie) que les Sciences dites exactes (biologie, médecine, environnement).

L’usage de données numériques présente alors de nombreux avantages. Des scientifiques itinérants ou des équipes délocalisées peuvent travailler à distance. Des analyses statistiques mettent en évidence des thèmes, le rôle de personnes ou d’organismes, des relations. Si certains corpus tiennent de la base bibliographique, d’autres rassemblent de nombreux objets d’archive qu’il convient de gérer. Des précautions particulières doivent alors être prises pour classer et préserver sur le long terme les fichiers qui peuvent résulter de coûteuses numérisations. Les métadonnées peuvent inclure des transcriptions, des traductions ou des annotations. Des objets de différentes provenances (archives, bibliothèques, musées, internet) peuvent être rassemblées aisément avec le numérique.

Dans le cas d’un accès public, des questions juridiques doivent être résolues. L’utilisation de licences « Creative Commons », « Domaine public » ou « Etalab » facilite les échanges. Le crowdsourcing (la réalisation de transcriptions ou de traductions par une communauté élargie), voire le crowdfounding (des apports financiers individuels ou collectifs destinés à l’avancement du projet) deviennent possibles. Des difficultés d’ordre technique ou financier se posent encore bien évidemment.

Cependant, l’élaboration d’un corpus ne constitue qu’une première étape de la démarche scientifique. Comme le précise plaisamment Henri Poincaré  “On fait la science avec des faits, comme on fait une maison avec des pierres : mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est une maison”. Au-delà des objectifs de collecte, les corpus nécessitent des interprétations pour prendre sens. Des histoires doivent être racontées. Des théories peuvent être confrontées à la réalité. L’étude conduit en général à la publication de livres, de thèses, de rapports, d’articles, ou encore à la production d’enseignements, d’expositions, de films documentaires. Soutenus en France au niveau national et régional, l’élaboration de corpus est un outil majeur des Humanités numériques et d’autres disciplines.

Quelques exemples de corpus complètent cet article. Même s’ils ne sont pas assez nombreux et détaillés pour constituer un corpus de corpus – un métacorpus, ils permettent de mieux se rendre compte de l’ancienneté, de la diversité et de la fécondité de la méthode. L’expertise s’avère nécessaire aussi bien lors du choix des documents que lors de l’interprétation. Des partis pris, des conflits d’intérêts, des ignorances peuvent rendre un ensemble de données incomplet. Une communauté d’experts appuyée par différents corps de métiers incluant des spécialistes de la numérisation, de l’informatique, de la documentation, de la communication, du droit conduit généralement à la réussite du projet. Si l’ouverture des données et l’interopérabilité sont privilégiés, cette aventure collective peut devenir profitable pour la science et l’enseignement , voire intéresser le grand public.

Quelques exemples de corpus

Les corpus sont utilisés depuis l’antiquité grecque au moins. Diogène Laërce dans sa liste des œuvres d’Aristote montre l’existence d’un ouvrage dont seul le titre est parvenu jusqu’à nous : “Des Constitutions des villes (cent cinquante-huit) et en particulier des constitutions démocratiques, oligarchiques, aristocratiques et tyranniques”. Un corpus de textes ou de récits oraux a dû préexister à l’écriture de l’ouvrage disparu. Attribué aussi à Aristote et à ses élèves, “Constitution d’Athènes” permet de mieux se rendre compte du contenu possible à savoir l’histoire politique et sociale des cités grecques. Le corpus donne alors lieu à un ouvrage majeur d’Aristote : Les Politiques.

1486, Jean Pic de la Mirandole publie en vue d’en débattre publiquement à Rome “Conclusiones philosophicae, cabalasticae et theologicae” (900 conclusions philosophiques, cabalistiques et théologiques), une oeuvre en latin basée sur une tentative de synthèse des textes de Platon, d’Aristote, de l’hermétisme et de la Kabbale. Sa démarche lui vaudra d’être considéré comme hérétique. Son oeuvre sera 200 ans plus tard vertement critiquée par Voltaire : « Il est encore plus extraordinaire que ce prince, ayant étudié tant de langues, ait pu à vingt-quatre ans soutenir à Rome des thèses sur tous les objets des sciences, sans en excepter une seule. On trouve à la tête de ses ouvrages quatorze cents conclusions générales sur lesquelles il offrit de disputer. (..) L’histoire du prince de La Mirandole n’est que celle d’un écolier plein de génie, parcourant une vaste carrière d’erreurs, et guidé en aveugle par des maîtres aveugles».

Mathématicien, physicien, philosophe et ingénieur français, Henri Poincaré (1854-1912) a établi une volumineuse correspondance, échangeant avec sa famille et avec d’autres scientifiques de différentes disciplines. Le LHSP-AHP (CNRS) publie un corpus en accès libre comprenant plus de 2000 lettres numérisées, écrites de la main de Poincaré ou dont il est le destinataire. L’étude inclue des transcriptions et des annotations mettant en évidence les thèmes et les réseaux sociaux du savant. Et de retracer le contexte scientifique, culturel ou social précédant la première guerre mondiale. Le laboratoire a produit jusqu’à présent 2 ouvrages relatifs à cette correspondance.

En plus de ses travaux de recherche, l’Inserm assume une mission d’expertise scientifique indépendante auprès des décideurs agissant dans le domaine de la santé publique (ministères, agences, caisses d’assurance maladie, mutuelles, associations…). La réalisation de ces expertises suit une procédure bien établie incorporant la mise au point préalable d’un corpus. Des articles et documents sont sélectionnés en relation avec les questions scientifiques d’un cahier des charges, puis sont remis à un groupe d’experts de divers champ de compétences. Le fonds documentaire est actualisé durant l’expertise et complété. L’Inserm a ainsi publié depuis 1994 prés de 70 expertises collectives sur des sujets médicaux et de santé publique très divers, apportant l’éclairage nécessaire aux décisions publiques en matière de soins, de dépistage et de prévention. Les rapports sont accessibles librement.

Nicole Loupvent quitte en 1531 son abbaye, de Saint-Mihiel en Meuse, pour se rendre à Jérusalem. Tout au long du voyage, qui durera 3 mois, il prendra des notes qui lui serviront à faire un récit au jour le jour, et qu’il consignera dans deux manuscrits conservés à la bibliothèque bénédictine de Saint-Mihiel. Réalisé par l’Université de Lorraine, le site www.domloupvent.fr rassemble plus de 100 vidéos comprenant un film documentaire et des interviews d’enseignants et de chercheurs. Quelques manuscrits originaux accompagnés d’une transcription viennent compléter le site destiné à l’enseignement et à un large public amateur d’histoire de la renaissance et d’histoire des religions.

Conclusion

D’autres exemples touchant différents domaines scientifiques comme l’environnement avec les travaux du GIEC relatifs aux changements climatiques auraient pu être pris en exemple. La méthode s’apparente à celle de l’enquête dans laquelle il s’agit de trouver des preuves, de démontrer en réunissant des indices. Un corpus peut rester longtemps vivant à condition que des travaux de maintenance soient réalisés. La démarche demande sans doute une certaine humilité. L’expérience montre que toujours certains faits nous échappent, restent inaccessibles, n’ont pas laissé de trace et ont cependant joué un rôle, restent inexpliqués. Comme le proposent Socrate ou Montaigne, la vérité si elle existe reste un idéal délicat à atteindre et encore plus à partager !

Publicités

,

  1. Poster un commentaire

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :