La transcription collaborative des manuscrits et des textes anciens

« Il y va de l’indéchiffrable comme de la psychologie des formes. Celui-ci bute cent fois sur un terme illisible, s’agace, croit tenir le mot récalcitrant sur le bout de la langue, reconnaît un préfixe, s’acharne sur le radical, s’accroche à quelques lettres reconnues, indubitables, en pointillé du sens, ici, là, mais qui à elles seules sont impuissantes à livrer l’énigme tapie dans le vocable. Le mot fait clé de voûte à la phrase. C’est un verbe, il en est sûr, la suite et le début de cette phrase l’indique assez. Mais lequel ? Mais ce mot ? »

Michel Jullien, 2013.

L’étude des manuscrits et des textes imprimés anciens peut nécessiter une étape de transcription au cours de laquelle les documents numérisés sont transcrits en caractères alphabétiques. La reconnaissance optique de caractère (OCR) apporte dans le cas des livres du 19ème siècle et des tapuscrits du 20ème une aide pour automatiser le processus, mais le résultat s’avère souvent imparfait; on peut souhaiter corriger des erreurs. L’OCR s’avère aussi impossible dans de nombreux cas. Des applications et plateformes web dédiées aident les travaux des archivistes, des historiens, des géographes, des ethnologues. Le grand publics est parfois sollicité pour apporter une contribution significative à des projets présentant un intérêt historique ou social. Le crowdsourcing est dans le vent.

Les foules sont elles capables de sagesse, d’altruisme et d’efforts à long terme ? Assurément, mais à condition qu’elles en tirent certains profits et satisfactions sociales. Dans le cas de la transcription, des contenus particuliers peuvent mobiliser des équipes de bénévoles. Des règles de transcription doivent être posées et transmises. Les applications doivent être gamifiées. Des workflow de validation doivent être organisés. Des amateurs d’histoire, des archivistes, des paléographes, des étudiants en sciences humaines, peuvent contribuer à condition que des réseaux sociaux fournissent des informations régulières, que des récompenses sociales soient imaginées, que des événements rassemblent les transcripteurs. Les contenus et la présentation doivent générer une émotion à distance, socialement partagée.

La transcription des manuscrits, des livres, des articles, des carnets de recherche est une étape incontournable lors de nombreuses études historiques, scientifiques, ethnologiques ou linguistiques. Des contenus libres de droit sont numérisés et rendus aisés à manipuler. Si des logiciels facilitent le travail de transcription, des plateformes du web apportent des fonctionnalités innovantes. Des équipes de transcripteurs peuvent collaborer sur un projet. L’application web rend le texte accessible au plus grand nombre. La sauvegarde, l’historique, les révisions sont ainsi gérés de manière centralisée. Les résultats de certains projets s’avèrent parfois étonnants en terme de qualité et de nombre de pages transcrites, voire annotées. Outre Atlantique, des plateformes nationales telles que celles de la bibliothèque du Congrès ou du Smithsonian font ainsi appel à la foule.

L’interface utilisateur comprend classiquement deux parties. La visionneuse permet, comme son nom l’indique, de scruter le document au format image : on peut déplacer, agrandir ou diminuer la taille du document. Le formulaire de transcription permet la saisie au format texte, parfois en TEI / XML. La couche texte obtenue par OCR peut être récupérée automatiquement à partir des images, du fichier PDF ou djvu à transcrire. Une aide à l’avancement des projets peut aussi être apportée par l’intelligence artificielle, comme le montre l’initiative européenne Transkribus. On peut ensuite corriger ou bien saisir directement les données. Le texte peut parfois être enrichi d’indications sémantiques, voire d’annotations.

Quelques solutions se présentent sous la forme d’une extension disponible pour un moteur de wiki (Mediawiki), une plateforme d’archivage numérique (Omeka), ou un gestionnaire de contenu (WordPress). Des applications spécifiques sont aussi développées, intégrant des briques javascript en accès libre. Certains logiciels permettent un export des données en TEI, un langage de balisage standard. Cet article propose un tour d’horizon de quelques projets et outils de transcription fonctionnels ou en cours de développement sur la période 2012 – 2018.

  1. Le format TEI
  2. Wikisource
  3. Scripto
  4. Bentham Transcription Desk
  5. Transkribus
  6. Autres outils de transcription collaborative
  7. Projets et réalisations diverses

1. Le format TEI

Certains logiciels adoptent pour la transcription, la traduction ou l’annotation des données écrites et orales le format TEI : Text Encoding Inititive. Ce format modulaire promu par un consortium existe en version XML depuis 2001. De nombreux outils associés parmi lesquels TEI Boilerplate facilitent la publication de documents. Le logiciel Omeka Classic propose depuis peu un plugin destiné à produire des fichiers XML au format TEI. Cependant TEI ne constitue qu’une des possibilités de format pour l’échange standardisé des données textuelles.

2. Wikisource

Lancé en 2003 par la fondation Wikimedia, Wikisource est un projet de bibliothèque numérique internationale mettant à disposition des lecteurs des textes anciens de toutes langues préalablement publiés, du domaine publique ou compatible avec la licence Creative Commons BY-SA 3.0. Il s’agit d’un service gratuit basé sur le logiciel libre Mediawiki. Plus de 84 000 pages en français, 358 000 pages en anglais et 83 000 pages en allemand sont ainsi accessibles en 2012. 186 langues sont représentées dont de nombreuses langues anciennes. Sur la version française de Wikisource, les livres sont classés par époque, genre, thème, type. Quelques audiolivres et traduction sont disponibles. Des portails thématiques : philosophie, histoire, mathématique, auteur, etc, facilitent l’accès à des corpus de documents déjà transcrits ou traduits. Des utilisateurs connectés ou anonymes peuvent collaborer à la transcription.

Au niveau technique, Wikisource utilise le moteur de wiki Mediawiki dont les fonctionnalités sont améliorées à l’aide notamment de l’extension Proofread Page. Wikisource permet la transcription de livres numériques au format pdf ou djvu (prononcer “déjà vu”), un format adapté pour l’archivage numérique développé par AT&T dont les fonctionnalités sont voisines de pdf. L’OCR d’une page peut être récupérée dans la boîte de saisie en cliquant sur un bouton localisé dans la barre des tâches de l’éditeur. Mediawiki permet la saisie des formules mathématiques en MathML.

  • Wikisource : http://wikisource.org
  • L’aide de Wikisource France pour la transcription des livres : Lien
  • Wikisource sur Wikipedia : Lien
  • Edition collaborative de manuscrits sur Wikisource, Archives départementales des Alpes-Maritimes, 2012 : Lien
  • Portails Wikisource France : Lien
  • Essai sur l’entendement humain (1735 John Locke, traduction par Pierre Coste, transcription Walpole, Loudubewe, Zaran) :
    Lien
  • Comptes rendus hebdomadaires des séances de l’Académie des sciences, tome 136, 1903 : Lien
  • Henri Poincaré sur Wikisource : Lien
  • MediaWiki, Extension Proofread Page par ThomasV : Lien
  • Saisie des fonctions mathématiques dans MediaWiki : Lien

3. Scripto

Développé depuis 2010 par le “Center for History and New Media”,  un organisme à but non lucratif à l’origine des logiciels biens connus Omeka et Zotero, Scripto est une application web sous licence GNU GPL v3 qui permet la transcription collaborative. Le logiciel est disponible sous forme d’une extension venant étendre les fonctionnalités de logiciels comme Drupal, WordPress ou Omeka. La dernière version de Scripto (1.2) date de 2017. Au niveau technique, les programmes PHP/Zend se basent sur l’API du moteur de wiki MediaWiki et sur différentes visionneuses au choix OpenLayers ou Google Docs Viewer.

Cahiers de terrain de Raymond Mauny avec transcrire : Lien

4. Bentham Transcription Desk

Développé en 2010 par l’ULCC (University of London Computer Center), le logiciel sous licence GPL intègre le moteur de wiki MediaWiki complété de différentes extensions, et de la visionneuse Zoomify. Un barre d’outil personnalisable permet l’ajout de balises TEI aux textes transcrits. Le logiciel a été développé et mis en oeuvre dans le cadre d’un projet collaboratif visant à transcrire les écrits de Jeremy Bentham (1748-1832), juriste et philosophe britannique. Les développements du logiciel semblent maintenant suspendus.

  • UCL Transcribe Bentham, Londres : Lien
  • Code source : Lien

5. Transkribus

Après inscription sur la plateforme et téléchargement d’un logiciel de bureau, les images à transcrire sont segmentées en blocs et lignes. Une phase manuelle de transcription peut être entreprise, peu importe la langue ou le jeu de caractère. Des exports en TEI, RTF, PDF, XML sont possibles.

Une fois qu’une centaine d’image sont correctement transcrites, il est alors possible d’informer le Computational Intelligence Technology Lab (CITlab) de l’Université de Rostock. afin que celui-ci paramètre un moteur utilisant la technologie HTR (Handwritten Text Recognition).  D’autres pages peuvent alors être produites à l’aide des suggestions proposées par le logiciel. Cette phase pour l’instant gratuite devrait à terme devenir payante.

– use existing models for recognising printed and handwritten text
– train a neural network (« model ») specifically for your documents
– search your documents with Keyword Spotting (much more powerful than standard full-text search)
– export your documents in all common formats

6. Autres outils de transcription collaborative

Quelques autres initiatives conduisent au développement de plateformes et de logiciels remarquables. Le caractère actif et ouvert des développements informatiques doit être regardé attentivement avant de faire un choix technique.

7. Projets et réalisations diverses

  • Etat de l’art en matière de crowdsourcing dans les bibliothèques numériques, 2013 : Lien
  • Crowdsourcing : et si vous donniez de votre temps aux archives ?, Libération, 2016 : Lien
  • Bibliothèque du Congrès : Lien
  • Smithsonian transcription center : Lien
  • Univ. Iowa, DIY History, avec Omeka et Scripto : Lien
  • Projet CORRECT à la BNF, 2013-2015 : Lien
  • Projet FUI12 Ozalid, BNF, 2012 : Lien
  • ELAN : projet académique dans le domaine de la littérature, Correspondance Proust : Lien
  • Testaments de poilus, Huma-Num, Archives Nationales, 2018 : Lien
  • Transcrire, Huma-Num, Consortium, 2018 : Lien, Vidéo 35:27

Révisé 2019

Publicités

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s