Corpus scientifique numérique et ouvert, small data

Il n’est pas rare que des scientifiques soient amenés à rassembler une dizaine à plusieurs centaines de documents pour former un corpus qui servira de base à une ou plusieurs publications. Il peut aussi s’agir de partager des sources numériques, de comprendre des phénomènes complexes, de montrer, démontrer ou enseigner. Des items relatifs à un sujet, à un évènement ou à un lieu, à une personnalité remarquable, à une pratique professionnelle, culturelle ou sociale, à un organisme sont alors rassemblés. Ces documents peuvent provenir d’archives (ouvrage ancien, photo, document audio ou vidéo, correspondance, plan, carte, dessin, manuscrit, reconstitution 3D, tableau de données, données), de bibliothèques (article, thèse, livre, rapport) ou de musées. Des choix éditoriaux doivent être faits. Un objet isolé n’éclaire pas la recherche. Seul  le nombre et la diversité permet de faire émerger des tendances, des évènements marquant des ruptures, de mettre en évidence des relations, dépendant de paramètres comme le temps, le lieu ou l’environnement. Des scientifiques de différentes disciplines peuvent utiliser le même corpus, apportant chacun leur propre regard, ou conduisant à sa modification, conduisant à l’émergence d’une communauté. La démarche concerne aussi bien les Sciences Humaines (linguistique, histoire, ethnologie, philosophie, archéologie, sociologie) que les Sciences dites exactes (biologie, médecine, environnement).

L’usage de données numériques présente alors de nombreux avantages. Des scientifiques itinérants ou des équipes délocalisées peuvent travailler à distance. Des analyses statistiques des métadonnées ou des contenus permettent de mettre en évidence des thèmes, le rôle de personnes ou d’organismes, des relations. Si certains corpus tiennent de la base bibliographique, d’autres rassemblent de nombreux objets d’archive qu’il convient de gérer. Des précautions particulières doivent alors être prises pour classer et préserver sur le long terme les fichiers qui peuvent résulter de couteuses numérisations. Les métadonnées peuvent inclure des transcriptions, des traductions ou des annotations. Des objets de différentes provenances (archives, bibliothèques, musées, internet) peuvent être ainsi rassemblés.

Des questions juridiques doivent être résolues. L’utilisation de licences « Creative Commons », « Domaine public » ou « Etalab » facilite les échanges. Le crowdsourcing (la réalisation de transcriptions ou de traductions par une communauté élargie), voire le crowdfounding (des apports financiers individuels ou collectifs destinés à l’avancement du projet) deviennent possibles. Des difficultés d’ordre technique ou financier se posent encore bien évidemment.

Cependant, l’élaboration d’un corpus ne constitue qu’une première étape de la démarche scientifique. Comme le précise plaisamment Henri Poincaré dans son fameux livre “La science et l’hypothèse” : “On fait la science avec des faits, comme on fait une maison avec des pierres : mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est une maison”. Au-delà des objectifs de collecte, les corpus nécessitent diverses interprétations pour prendre sens. L’étude conduit en général à la publication de livres, de thèses, de rapports, d’articles, ou encore à la production d’enseignements, d’expositions, de films documentaires. Soutenus en France au niveau national et régional, le corpus est un outil majeur des Humanités numériques.

Quelques exemples provenant de différentes disciplines complètent cet article. Même s’ils ne sont pas assez nombreux et détaillés pour constituer corpus !, ils permettent de mieux se rendre compte de l’ancienneté, de la diversité et de la fécondité de la méthode. L’expertise s’avère nécessaire aussi bien lors du choix des documents que lors de l’interprétation. Des partis pris, des conflits d’intérêts, des ignorances peuvent éventuellement fausser des résultats. Une communauté d’experts appuyée par différents corps de métiers incluant des spécialistes de la numérisation, de l’informatique, de la documentation, de la communication, du droit conduit généralement à la réussite d’un projet. Si l’ouverture des données et l’interopérabilité sont privilégiés, cette aventure collective peut devenir profitable pour la science et l’enseignement , voire le grand public.

Corpus : http://fr.wikipedia.org/wiki/Corpus
Crowdsourcing : http://fr.wikipedia.org/wiki/Crowdsourcing
Guide pratique pour la production de corpus numérique (en SHS) : http://www.mutec-shs.fr/sites/www.mutec-shs.fr/files/Guide%20pratique%20pour%20la%20production%20de%20corpus%20num%C3%A9rique_0.pdf
Source primaire : http://fr.wikipedia.org/wiki/Source_primaire
Crowdfounding sur Gallica (BNF) : http://www.amisbnf.org/books.html

Quelques exemples de corpus

Les corpus sont utilisés depuis l’antiquité grecque au moins. Diogène Laërce dans sa liste des œuvres d’Aristote montre l’existence d’un ouvrage dont seul le titre est parvenu jusqu’à nous : “Des Constitutions des villes (cent cinquante-huit) et en particulier des constitutions démocratiques, oligarchiques, aristocratiques et tyranniques”. Un corpus de textes ou de récits oraux a dû préexister à l’écriture de l’ouvrage disparu. Attribué aussi à Aristote et à ses élèves, “Constitution d’Athènes” permet de mieux se rendre compte du contenu possible à savoir l’histoire politique et sociale des cités grecques. Le corpus donne alors lieu à l’ouvrage majeur d’Aristote : les Politiques.

Catalogue_des_œuvres_d’Aristote_selon_Diogène_Laërce : http://fr.wikipedia.org/wiki/Catalogue_des_œuvres_d’Aristote_selon_Diogène_Laërce
Constitution_d’Athènes : http://fr.wikipedia.org/wiki/Constitution_d’Athènes
Constitution d’Athènes, Aristote : http://remacle.org/bloodwolf/philosophes/Aristote/tableconstitution.htm les Politiques : https://fr.wikipedia.org/wiki/Politique_%28Aristote%29

1486, Jean Pic de la Mirandole publie en vue d’en débattre publiquement à Rome “Conclusiones philosophicae, cabalasticae et theologicae” (900 conclusions philosophiques, cabalistiques et théologiques), une oeuvre en latin basée sur la lecture et sur une tentative de synthèse des textes de Platon, d’Aristote, de l’hermétisme et de la Kabbale. Sa démarche lui vaudra d’être considéré comme hérétique. Son oeuvre sera 200 ans plus tard vertement critiquée par Voltaire : « Il est encore plus extraordinaire que ce prince, ayant étudié tant de langues, ait pu à vingt-quatre ans soutenir à Rome des thèses sur tous les objets des sciences, sans en excepter une seule. On trouve à la tête de ses ouvrages quatorze cents conclusions générales sur lesquelles il offrit de disputer. (..) L’histoire du prince de La Mirandole n’est que celle d’un écolier plein de génie, parcourant une vaste carrière d’erreurs, et guidé en aveugle par des maîtres aveugles».

Jean Pic de la Mirandole : http://fr.wikipedia.org/wiki/Jean_Pic_de_la_Mirandole

Mathématicien, physicien, philosophe et ingénieur français, Henri Poincaré (1854-1912) a établi une volumineuse correspondance, échangeant avec sa famille et avec d’autres scientifiques de différentes disciplines. Le LHSP-AHP (CNRS) publie un corpus en accès libre comprenant plus de 2000 lettres numérisées, écrites de la main de Poincaré ou dont il est le destinataire. L’étude inclue des transcriptions et des annotations mettant en évidence les thèmes et les réseaux sociaux du savant, et de retracer le contexte scientifique, culturel ou social précédant la première guerre mondiale. Le laboratoire a produit jusqu’à présent 2 ouvrages relatifs à cette correspondance.

Henri Poincaré : http://fr.wikipedia.org/wiki/Henri_Poincaré
La correspondance d’Henri Poincaré : https://www.univ-nancy2.fr/poincare/chp/
“La correspondance entre Henri Poincaré et Gösta Mittag-Leffler”, Philippe Nabonnand, 1999 : http://www.springer.com/birkhauser/mathematics/book/978-3-7643-5992-8
La correspondance entre Henri Poincaré et les physiciens, chimistes et ingénieurs, Scott Walter et al., 2007 : http://www.springer.com/birkhauser/history+of+science/book/978-3-7643-7136-4

En plus de ses travaux de recherche, l’Inserm assume une mission d’expertise scientifique indépendante auprès des décideurs agissant dans le domaine de la santé publique (ministères, agences, caisses d’assurance maladie, mutuelles, associations…). La réalisation de ces expertises suit une procédure bien établie incorporant la mise au point préalable d’un corpus. Des articles et documents sont sélectionnés en relation avec les questions scientifiques d’un cahier des charges, puis sont remis à un groupe d’experts de divers champ de compétences. Le fonds documentaire est actualisé durant l’expertise et complété. L’Inserm a ainsi publié depuis 1994 prés de 70 expertises collectives sur des sujets médicaux et de santé publique très divers, apportant l’éclairage nécessaire aux prises de décisions en matière de soins, de dépistage et de prévention. Les rapports sont accessibles librement.

Principes et méthodes de l’expertise collective à l’Inserm :
http://www.ipubli.inserm.fr/themes/Inserm_ExpColl/static/methodologie.html
Archive des expertises collectives :
http://www.inserm.fr/thematiques/sante-publique/expertises-collectives/archives-des-expertises-collectives

Nicole Loupvent quitte en 1531 son abbaye, de Saint-Mihiel en Meuse, pour se rendre à Jérusalem. Tout au long du voyage, qui durera 3 mois, il prendra des notes qui lui serviront à faire un récit au jour le jour, et qu’il consignera dans deux manuscrits conservés à la bibliothèque bénédictine de Saint-Mihiel. Réalisé par l’Université de Lorraine, le site www.domloupvent.fr rassemble plus de 100 vidéos comprenant un film documentaire et des interviews d’enseignants et de chercheurs. Quelques manuscrits originaux accompagnés d’une transcription viennent compléter le site destiné à l’enseignement et à un large public amateur d’histoire de la renaissance et d’histoire des religions.

Le site référencé sur « Université ouverte des humanités » : http://www.uoh.fr/front/notice?id=5d17a5a6-75e0-4668-a1b5-6933d66e327e
La coexistence religieuse au XVIe siècle et aujourd’hui, à partir de l’histoire du pèlerinage de Dom Loupvent en 1531 (formation numérique) : http://rpn.univ-lorraine.fr/UOH/DOMLOUPVENT/co/domloupvent_web.html
Dom loupvent , Voyage d’un lorrain en Terre Sainte au XVIème siècle  (livre) : http://livre.fnac.com/a2025761/P-Martin-Dom-loupvent

De nombreux autres exemple touchant d’autres domaines scientifiques comme l’environnement avec les travaux du GIEC auraient pu être pris. La méthode scientifique est commune et s’apparente à celle de l’enquête dans laquelle il s’agit de trouver le vrai, de démontrer en réunissant de nombreux indices…

  1. Poster un commentaire

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :