La transcription collaborative des manuscrits et des textes anciens

« Il y va de l’indéchiffrable comme de la psychologie des formes. Celui-ci bute cent fois sur un terme illisible, s’agace, croit tenir le mot récalcitrant sur le bout de la langue, reconnaît un préfixe, s’acharne sur le radical, s’accroche à quelques lettres reconnues, indubitables, en pointillé du sens, ici, là, mais qui à elles seules sont impuissantes à livrer l’énigme tapie dans le vocable. Le mot fait clé de voûte à la phrase. C’est un verbe, il en est sûr, la suite et le début de cette phrase l’indique assez. Mais lequel ? Mais ce mot ? »

Michel Jullien, 2013.

L’étude des manuscrits (livres anciens, registres, carnets de recherche) et des textes imprimés (livres, articles, journeaux) nécessite une étape de transcription au cours de laquelle des documents au format image deviennent transcrits en texte numérique. La reconnaissance optique de caractère (OCR) apporte dans le cas des livres du 19ème siècle et des tapuscrits du 20ème une aide pour automatiser le processus, mais le résultat s’avère parfois imparfait; on peut souhaiter corriger des erreurs. L’OCR est impossible dans de nombreux cas. Des applications et plateformes web dédiées aident les travaux des archivistes, des historiens, des géographes, des ethnologues, des philologues, médiévistes, épigraphistes et paléographes.

Le grand public est parfois sollicité pour apporter sa contribution à des projets présentant un fort intérêt et dont les textes seront lisibles de tous. Les foules sont elles capables de sagesse, d’altruisme et d’efforts à long terme ? Assurément, mais à condition qu’elles en tirent quelques satisfactions. Dans le cas de la transcription, des contenus particuliers peuvent mobiliser des équipes de bénévoles. Des règles de transcription doivent être élaborées et transmises. Les applications doivent être ergonomiques. Des workflows de validation doivent être organisés. Des amateurs d’histoire, des archivistes, des étudiants en sciences humaines, peuvent contribuer à condition que l’organisation fournisse des récompenses, que des événements rassemblent les transcripteurs qui ne sont pas des auteurs et cependant tirent satisfaction à la relecture et au déchiffrement d’une œuvre.

Des communautés et équipes de transcripteurs peuvent collaborer sur un projet. Des contenus libres de droit sont alors numérisés et partagés à l’aide d’une application web. La sauvegarde, l’historique, les révisions se trouvent ainsi gérés de manière centralisée. L’interface utilisateur comprend classiquement deux parties. La visionneuse permet, comme son nom l’indique, de scruter le document au format image : on peut déplacer, agrandir ou diminuer la taille du document. Le formulaire de transcription permet la saisie au format texte, parfois en TEI / XML. La couche texte obtenue par OCR peut être récupérée automatiquement à partir des images, du fichier PDF ou djvu à transcrire. On peut ensuite corriger ou bien saisir directement les données. Le texte peut être enrichi d’indications sémantiques.

Une aide à l’avancement des projets peut aussi être apportée par l’intelligence artificielle, comme le montre l’initiative européenne Transkribus, le module Scripto d’omeka Classic et S, le module DataScribe d’Omeka S, le logiciel eSriptorium de PSL, ou bien le logiciel Scribe de la Bibliothèque de New-York. Outre Atlantique, des plateformes nationales telles que celles de la bibliothèque du Congrès ou du Smithsonian font ainsi appel à la foule. Les résultats de certains projets s’avèrent étonnants en terme de qualité et de nombre de pages transcrite et dont le lectorat se trouve ainsi renouvelé. Quelques solutions se présentent sous la forme d’une extension disponible pour un moteur de wiki (Mediawiki), une plateforme d’archivage numérique (Omeka Classic et S), ou un gestionnaire de contenu (WordPress). Cet article propose un tour d’horizon de quelques uns des projets et outils mis au point sur la période 2012 – 2021.

  1. Le format TEI
  2. Wikisource
  3. Scripto
  4. Bentham Transcription Desk
  5. Transkribus
  6. Autres outils de transcription collaborative
  7. Projets et réalisations diverses
  8. eScripta et eScriptorium

1. Le format TEI

Certains logiciels adoptent le format Text Encoding Initiative (TEI) pour la transcription, la traduction ou l’annotation des données écrites et orales. Ce format modulaire promu par le consortium TEI existe en version XML depuis 2001. De nombreux outils associés parmi lesquels TEI Boilerplate facilitent la publication de documents. Le logiciel Omeka Classic propose depuis peu un plugin destiné à produire des fichiers XML au format TEI, alors que les bases de données XML natives constituent les plateformes généralement adoptées pour lire les résultats. Cependant TEI ne constitue qu’une des possibilités de format pour l’échange standardisé des données textuelles, populaire dans le domaine des études littéraires essentiellement.

  • TEI Boilerplate : http://teiboilerplate.org
  • Correspondence Metadata Interchange Format (CMIF) – Documentation : Lien
  • Plugin Transcript ENS-ITEM pour Omeka Classic : Lien
  • Exploitation d’un corpus en TEI avec le système de gestion de base de données XML natif BaseX : Lien, Site officiel : Lien
  • TEI Publisher – eXist-db : TEI Publisher works out of the box with TEI documents (hence its name) but it can be customized to accommodate any XML schema : Lien

2. Wikisource

Lancé en 2003 par la fondation Wikimedia, Wikisource est un projet de bibliothèque numérique internationale mettant à disposition des lecteurs des textes du domaine publique ou compatibles avec la licence Creative Commons BY-SA 3.0. Il s’agit d’un service gratuit basé sur le logiciel libre Mediawiki. Plus de 84 000 pages en français, 358 000 pages en anglais et 83 000 pages en allemand sont ainsi accessibles en 2012. 186 langues sont représentées dont de nombreuses langues anciennes. Sur la version française de Wikisource, les livres sont classés par époque, genre, thème, type. Quelques audiolivres et traduction sont disponibles. Des portails thématiques : philosophie, histoire, mathématique, auteur, etc, facilitent l’accès à des corpus de documents déjà transcrits ou traduits. Des utilisateurs connectés ou anonymes peuvent collaborer à la transcription.

Au niveau technique, Wikisource utilise le moteur de wiki Mediawiki dont les fonctionnalités sont améliorées à l’aide notamment de l’extension Proofread Page. Wikisource permet la transcription de livres numériques au format pdf ou djvu (prononcer “déjà vu”), un format adapté pour l’archivage numérique développé par AT&T dont les fonctionnalités sont voisines de pdf. L’OCR d’une page peut être récupérée dans la boîte de saisie en cliquant sur un bouton localisé dans la barre des tâches de l’éditeur. Mediawiki permet la saisie des formules mathématiques en MathML.

  • Wikisource : http://wikisource.org
  • L’aide de Wikisource France pour la transcription des livres : Lien
  • Wikisource sur Wikipedia : Lien
  • Edition collaborative de manuscrits sur Wikisource, Archives départementales des Alpes-Maritimes, 2012 : Lien
  • Portails Wikisource France : Lien
  • Essai sur l’entendement humain (1735 John Locke, traduction par Pierre Coste, transcription Walpole, Loudubewe, Zaran) :
    Lien
  • Comptes rendus hebdomadaires des séances de l’Académie des sciences, tome 136, 1903 : Lien
  • Henri Poincaré sur Wikisource : Lien
  • MediaWiki, Extension Proofread Page par ThomasV : Lien
  • Saisie des fonctions mathématiques dans MediaWiki : Lien

3. Scripto

Développé depuis 2010 par le “Center for History and New Media”,  un organisme à but non lucratif à l’origine des logiciels Omeka et Zotero, Scripto est une application web sous licence GNU GPL v3 qui permet la transcription collaborative. Le logiciel est disponible sous forme d’une extension venant étendre les fonctionnalités de logiciels comme Drupal, WordPress ou Omeka. La dernière version de Scripto (1.2) date de 2017. Au niveau technique, les programmes PHP/Zend se basent sur l’API du moteur de wiki MediaWiki et sur différentes visionneuses au choix OpenLayers ou Google Docs Viewer.

Cahiers de terrain de Raymond Mauny avec transcrire : Lien

4. Bentham Transcription Desk

Développé en 2010 par l’ULCC (University of London Computer Center), le logiciel sous licence GPL intègre le moteur de wiki MediaWiki complété de différentes extensions, et de la visionneuse Zoomify. Un barre d’outil personnalisable permet l’ajout de balises TEI aux textes transcrits. Le logiciel a été développé et mis en œuvre dans le cadre d’un projet collaboratif visant à transcrire les écrits de Jeremy Bentham (1748-1832), juriste et philosophe britannique. Les développements du logiciel semblent maintenant suspendus.

  • UCL Transcribe Bentham, Londres : Lien
  • Code source : Lien

5. Transkribus

Après inscription sur la plateforme et téléchargement d’un logiciel de bureau, les images à transcrire sont segmentées en blocs et lignes. Une phase manuelle de transcription peut être entreprise, peu importe la langue ou le jeu de caractère. Des exports en TEI, RTF, PDF, XML sont possibles.

Une fois qu’une centaine d’image sont correctement transcrites, il est alors possible d’informer le Computational Intelligence Technology Lab (CITlab) de l’Université de Rostock afin que celui-ci paramètre un moteur utilisant la technologie HTR (Handwritten Text Recognition).  D’autres pages peuvent alors être produites à l’aide des suggestions proposées par le logiciel. Cette phase pour l’instant gratuite devrait à terme devenir payante.

– use existing models for recognising printed and handwritten text
– train a neural network (« model ») specifically for your documents
– search your documents with Keyword Spotting (much more powerful than standard full-text search)
– export your documents in all common formats

6. Autres outils de transcription collaborative

Quelques logiciels remarquables :

7. Projets et réalisations diverses

  • État de l’art en matière de crowdsourcing dans les bibliothèques numériques, 2013 : Lien
  • Crowdsourcing : et si vous donniez de votre temps aux archives ?, Libération, 2016 : Lien
  • Transcription à la bibliothèque du Congrès : Lien
  • Smithsonian transcription center : Lien
  • Univ. Iowa, DIY History, avec Omeka et Scripto : Lien
  • Projet FUI12 Ozalid, BNF, 2012 : Lien
  • ELAN : projet académique dans le domaine de la littérature, Correspondance Proust : Lien
  • Testaments de poilus, Huma-Num, Archives Nationales, 2018 : Lien
  • Transcrire, Huma-Num, Consortium, 2018 : Lien, Vidéo 35:27
  • Publier une correspondance, Danièle Poublan : Lien

8. eScripta et eScriptorium

Une initiative pour la transcription des documents médiévaux basée sur le standard IIIF d’interopérabilité des images en haute résolution.

  • Scripta PSL : Lien
  • eScripta : This is a ‘work in progress’ blog associated with eScripta, the Digital Humanities team within the Scripta project at Université Paris Sciences et Lettres : Lien
  • eScriptorium : un outil pour la transcription automatique des documents, 2020 : Lien

Transcrire, c’est reproduire exactement, par l’écriture, ce qui a déjà été écrit. Passer de l’écriture cursive au caractère d’imprimerie : cette étape initiale, indispensable, demande des choix réfléchis car le résultat n’est pas un simple décalque du fac-similé. Les options retenues sont conditionnées par les intentions des éditeurs. Chaque corpus et chaque projet requièrent des règles spécifiques ; il convient d’en être conscient et d’expliciter les inévitables modifications qui transforment le feuillet manuscrit en une page imprimée lisible sur un écran d’ordinateur.

Éditer des lettres, Danièle Poublan : Lien

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s