La transcription collaborative des manuscrits et des textes anciens

« Il y va de l’indéchiffrable comme de la psychologie des formes. Celui-ci bute cent fois sur un terme illisible, s’agace, croit tenir le mot récalcitrant sur le bout de la langue, reconnaît un préfixe, s’acharne sur le radical, s’accroche à quelques lettres reconnues, indubitables, en pointillé du sens, ici, là, mais qui à elles seules sont impuissantes à livrer l’énigme tapie dans le vocable. Le mot fait clé de voûte à la phrase. C’est un verbe, il en est sûr, la suite et le début de cette phrase l’indique assez. Mais lequel ? Mais ce mot ? »

Michel Jullien, 2013.

L’étude des manuscrits (livres anciens, registres, carnets de recherche) et des textes et images imprimés (livres, articles, journaux, cartes) nécessite une étape de transcription au cours de laquelle des documents ou fragments textuels passent du format image au format numérique. La reconnaissance optique de caractère (OCR) apporte dans le cas des livres du 19ème siècle et des tapuscrits du 20ème une aide précieuse pour automatiser le processus, mais le résultat s’avère souvent imparfait et la correction des erreurs constatées peut s’avérer nécessaire dans un objectif de publication. L’OCR se fonctionne pas dans de nombreux cas et en particulier pour les manuscrits dont la graphie se montre fort variable. Des applications et plateformes web apportent alors une aide aux archivistes, historiens et spécialistes des imprimés et textes manuscrits car elles rendent plus aisé la sauvegarde et le partage des travaux.

Des étudiants voire le grand public peuvent être sollicités pour apporter leur contribution à des projets présentant un fort intérêt patrimonial. Les foules sont elles capables de sagesse, d’altruisme et d’efforts à long terme ? Assurément, mais à condition qu’elles en tirent quelques satisfactions. Dans le cas de la transcription, des contenus spéciaux peuvent mobiliser des équipes de bénévoles. Des règles de transcription doivent être préalablement élaborées et se montrer documentées et évolutives. L’ergonomie des applications de même que les workflows de validation doivent être particulièrement travaillés. Les logiciels se doivent d’être adossés à une organisation capable de supporter des efforts de développement sur le long terme. En ce qui concerne la transcription, des amateurs peuvent contribuer aux sciences humaines à condition que l’organisation se montre ouverte, que des événements rassemblent des transcripteurs qui ne seront pas des auteurs mais pourront cependant tirer satisfaction de la relecture et du déchiffrement d’une lettre, d’un message, d’une œuvre.

L’interface utilisateur d’une plateforme de transcription comprend classiquement deux parties. La visionneuse permet, comme son nom l’indique, de scruter le document au format image : on peut déplacer, agrandir ou diminuer la taille du document. La résolution doit se montrer adaptée au type de document : faible pour les imprimés, élevée pour les quotidiens du XIXème, pour les manuscrits médiévaux et pour les cartes. Le formulaire de transcription permet la saisie au format texte, parfois en TEI / XML. Pour les imprimés, la couche texte obtenue par OCR peut être récupérée automatiquement à partir des images, du fichier au format PDF ou djvu. On peut ensuite corriger ou bien saisir directement les données. Avec TEI ou d’autres méthodes, le texte peut être enrichi d’indications sémantiques.

L’intelligence artificielle se montre susceptible de fournir une assistance, comme le montre un certain nombre d’initiatives. On peut notamment citer le projet européen Transkribus, le logiciel eSriptorium de PSL, ou bien le logiciel Scribe de la Bibliothèque de New-York. Outre Atlantique, des plateformes nationales telles que celles de la bibliothèque du Congrès ou du Smithsonian font appel à la foule, au crowdsourcing, à la participation des gens. Les résultats de certains projets s’avèrent étonnants en terme de qualité et de nombre de pages transcrites. Quelques solutions se présentent sous la forme d’une extension disponible pour un moteur de wiki (Mediawiki), une plateforme d’archivage numérique (Omeka Classic et S), ou un gestionnaire de contenu (WordPress). Cet article propose un tour d’horizon de quelques uns des projets et outils mis au point sur la période 2012 – 2021.

  1. Visionneuses IIIF
  2. Le format de transcription TEI
  3. Wikisource
  4. Scripto
  5. Bentham Transcription Desk
  6. Transkribus
  7. Autres outils de transcription collaborative
  8. Projets et réalisations diverses
  9. eScripta et eScriptorium

1. Visionneuses IIIF

Le format International Image Interoperability Framework (IIIF, prononcer ‘triple-I-eff’) définit plusieurs API qui fournissent une méthode standard de description et de fourniture des images haute-résolution du web ainsi que de leurs métadonnées. Le standard permet de gérer au choix une image simple, une série d’image appartenant à un livre, une collection de livres et de documents. Des institutions (musée, bibliothèque, archives) peuvent exposer sur des serveurs IIIF dédiés des images d’œuvres d’art, de livres, de journaux, de cartes et ce genre de chose. L’URL du « manifeste » d’une œuvre numérique exposée est fournie. Un manifeste correspond à un fichier au format JSON contenant des métadonnées descriptives et des liens vers des images à télécharger sur des serveurs. Un utilisateur peut alors depuis une visionneuse compatible consommer les images haute-résolution provenant d’une ou de plusieurs institutions différentes. Des images de diverses origines, numérisées en différents lieux peuvent être visionnées simultanément. Plusieurs solutions existent pour annoter des documents disponibles au format IIIF.

Les principales visionneuses IIIF open-source basées sur des développements javascript sont les suivantes :

  • OpenSeadragon. Projet initié par Microsoft et passé en logiciel libre : Lien
  • Universal Viewer. Développé par la société britannique Digirati pour l’environnement IIIF de la British Library : Lien
  • Mirador. Initiative internationale appuyée sur des développements fait par l’Université de Stanford et par d’autres, utilisé notamment à la BnF et à l’INHA : Lien

Certaines bibliothèques fournissent leurs images au format IIIF et proposent des expériences :

  • IIIF Experiments : Lien
  • How to find and use the British Library’s IIIF enabled images : Lien
  • Implémentation de IIIF au sein de l’Institut national d’histoire de l’art : Lien
  • Utilisations de la visionneuse Mirador par Biblissima : Lien
  • Working with Annotations in Mirador : Lien
  • API IIIF de récupération des images de Gallica : Lien
  • Qu’est-ce que IIIF ? Biblissima : Lien

2. Le format de transcription TEI

Certaines plateformes proposent le format Text Encoding Initiative (TEI) pour transcrire, traduire ou annoter des données écrites ou orales. Ce format modulaire promu par le consortium du même nom existe en version XML depuis 2001. De nombreux outils associés parmi lesquels TEI Boilerplate facilitent la publication de documents. Le logiciel Omeka Classic propose depuis peu un plugin destiné à produire des fichiers XML au format TEI. Cependant TEI ne constitue qu’une des possibilités de format pour l’échange standardisé des données textuelles, populaire dans le domaine des études littéraires essentiellement. La plateforme TACT (Transcription et d’Annotation de Corpus Textuels) développée par ELAN intègre TEI comme format de transcription.

  • TEI Boilerplate : http://teiboilerplate.org
  • Correspondence Metadata Interchange Format (CMIF) – Documentation : Lien
  • Plugin Transcript ENS-ITEM pour Omeka Classic : Lien
  • Exploitation d’un corpus en TEI avec le système de gestion de base de données XML natif BaseX : Lien, Site officiel : Lien
  • TEI Publisher – eXist-db : TEI Publisher works out of the box with TEI documents (hence its name) but it can be customized to accommodate any XML schema : Lien
  • Plateforme TACT : Lien
  • Le pôle Document numérique élabore des outils adaptés aux différents projets auxquels il contribue : environnements de travail en XML (EAD et TEI), feuilles de transformation, outils de travail collaboratif, moteur d’affichage, etc. : Lien

3. Wikisource

Lancé en 2003 par la fondation Wikimedia, Wikisource est un projet collaboratif de bibliothèque numérique internationale mettant à disposition des lecteurs des textes du domaine publique ou compatibles avec la licence Creative Commons BY-SA 3.0. Il s’agit d’un service gratuit basé sur le logiciel libre Mediawiki visant à rendre public des documents concernant essentiellement la littérature. Plus de 84 000 pages en français, 358 000 pages en anglais et 83 000 pages en allemand sont ainsi accessibles en 2012. 186 langues sont représentées dont de nombreuses langues anciennes. Sur la version française de Wikisource, les livres sont classés par époque, genre, thème, type. Quelques audio-livres et traductions sont disponibles. Des portails thématiques : philosophie, histoire, mathématique, auteur, facilitent l’accès à des corpus de documents déjà transcrits ou traduits. Des utilisateurs connectés ou anonymes peuvent collaborer à la transcription.

Au niveau technique, Wikisource utilise le moteur de wiki Mediawiki dont les fonctionnalités sont améliorées à l’aide notamment de l’extension Proofread Page. Wikisource permet la transcription de livres numériques au format pdf ou djvu (prononcer “déjà vu”), un format adapté pour l’archivage numérique développé par AT&T dont les fonctionnalités se montrent voisines de pdf. L’OCR d’une page peut être récupérée dans la boîte de saisie en cliquant sur un bouton localisé dans la barre des tâches de l’éditeur. Mediawiki permet la saisie des formules mathématiques en MathML.

  • Wikisource : http://wikisource.org
  • L’aide de Wikisource France pour la transcription des livres : Lien
  • Wikisource sur Wikipedia : Lien
  • Edition collaborative de manuscrits sur Wikisource, Archives départementales des Alpes-Maritimes, 2012 : Lien
  • Portails Wikisource France : Lien
  • Essai sur l’entendement humain (1735 John Locke, traduction par Pierre Coste, transcription Walpole, Loudubewe, Zaran) :
    Lien
  • Comptes rendus hebdomadaires des séances de l’Académie des sciences, tome 136, 1903 : Lien
  • Henri Poincaré sur Wikisource : Lien
  • MediaWiki, Extension Proofread Page par ThomasV : Lien
  • Saisie des fonctions mathématiques dans MediaWiki : Lien

4. Scripto

Développé depuis 2010 par le “Center for History and New Media”,  un organisme à but non lucratif à l’origine des logiciels Omeka et Zotero, Scripto est une application web sous licence GNU GPL v3 qui permet la transcription collaborative. Le logiciel est disponible sous forme d’une extension venant étendre les fonctionnalités de logiciels comme Drupal, WordPress ou Omeka Classic ou Omeka S. La dernière version de Scripto (1.2) date de 2017. Au niveau technique, les programmes PHP/Zend se basent sur l’API du moteur de wiki MediaWiki et sur différentes visionneuses au choix OpenLayers ou Google Docs Viewer.

  • Scripto : http://scripto.org
  • OpenLayers : http://openlayers.org/
  • University of Iowa Library, transcribe : Lien
  • Mines Paris-Tech, exemple de transcription : Lien
  • Why Crowdsourcing? Why Scripto?, 2011 : Lien
  • Projet Transcrire – Huma-Num, avec Omeka Classic, 2018 : Lien
  • Univ. Iowa, DIY History, avec Omeka et Scripto : Lien
Cahiers de terrain de Raymond Mauny avec transcrire : Lien

5. Bentham Transcription Desk

Développé en 2010 par l’ULCC (University of London Computer Center), le logiciel sous licence GPL intègre le moteur de wiki MediaWiki complété de différentes extensions, et de la visionneuse Zoomify. Un barre d’outil personnalisable permet l’ajout de balises TEI aux textes transcrits. Le logiciel a été développé et mis en œuvre dans le cadre d’un projet collaboratif visant à transcrire les écrits de Jeremy Bentham (1748-1832), juriste et philosophe britannique. Les développements du logiciel semblent maintenant suspendus.

  • UCL Transcribe Bentham, Londres : Lien
  • Code source, plugin Mediawiki : Lien

6. Transkribus

Après inscription sur la plateforme et téléchargement d’un logiciel de bureau, les images à transcrire sont segmentées en blocs et lignes. Une phase manuelle de transcription peut être entreprise, peu importe la langue ou le jeu de caractère. Des exports en TEI, RTF, PDF, XML sont possibles.

Une fois qu’une centaine d’image sont correctement transcrites, il est alors possible d’informer le Computational Intelligence Technology Lab (CITlab) de l’Université de Rostock afin que celui-ci paramètre un moteur utilisant la technologie HTR (Handwritten Text Recognition).  D’autres pages peuvent alors être produites à l’aide des suggestions proposées par le logiciel. Cette phase pour l’instant gratuite devrait à terme devenir payante.

– use existing models for recognising printed and handwritten text
– train a neural network (« model ») specifically for your documents
– search your documents with Keyword Spotting (much more powerful than standard full-text search)
– export your documents in all common formats

7. eScripta et eScriptorium

Une initiative pour la transcription des documents médiévaux (manuscrit) basée sur le standard IIIF d’interopérabilité des images en haute résolution.

  • Scripta PSL : Lien
  • eScripta : This is a ‘work in progress’ blog associated with eScripta, the Digital Humanities team within the Scripta project at Université Paris Sciences et Lettres : Lien
  • eScriptorium : un outil pour la transcription automatique des documents, 2020 : Lien
  • Prendre en main eScriptorium, LECTAUREP, INRIA, Archives Nationales : Lien

8. Autres outils de transcription collaborative

Quelques logiciels remarquables :

9. Projets et réalisations diverses

  • État de l’art en matière de crowdsourcing dans les bibliothèques numériques, 2013 : Lien
  • Crowdsourcing : et si vous donniez de votre temps aux archives ?, Libération, 2016 : Lien
  • Transcription à la bibliothèque du Congrès : Lien
  • Smithsonian transcription center : Lien
  • Projet FUI12 Ozalid, BNF, 2012 : Lien
  • ELAN : projet académique dans le domaine de la littérature, Correspondance Proust : Lien
  • Testaments de poilus, Huma-Num, Archives Nationales, 2018 : Lien
  • Transcrire, Huma-Num, Consortium, 2018 : Lien, Vidéo 35:27
  • Publier une correspondance, Danièle Poublan : Lien
  • Transcrire de façon participative une source complexe : enjeux et difficultés du projet d’édition des carnets d’Antoine d’Abbadie, par Anaïs Wion, 2021 : Lien

Transcrire, c’est reproduire exactement, par l’écriture, ce qui a déjà été écrit. Passer de l’écriture cursive au caractère d’imprimerie : cette étape initiale, indispensable, demande des choix réfléchis car le résultat n’est pas un simple décalque du fac-similé. Les options retenues sont conditionnées par les intentions des éditeurs. Chaque corpus et chaque projet requièrent des règles spécifiques ; il convient d’en être conscient et d’expliciter les inévitables modifications qui transforment le feuillet manuscrit en une page imprimée lisible sur un écran d’ordinateur.

Éditer des lettres, Danièle Poublan : Lien
Publicité

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s