Plateformes et logiciels pour la transcription collaborative des textes anciens et des manuscrits

partiellement révisé 2018, article à réorganiser

L’étude des livres anciens ou des manuscrits peut nécessiter une étape de transcription au cours de laquelle des caractères au format image sont transcrits en caractères numériques. La reconnaissance optique de caractère (OCR) apporte dans le cas des tapuscrits et des livres à partir du 19ème une aide pour automatiser le processus, mais le résultat s’avère souvent imparfait. On peut souhaiter corriger les erreurs. Lorsque les textes sont des imprimés anciens ou des manuscrits, l’OCR traditionnelle s’avère impossible. Quelques applications web et plateformes spécialisées dans l’aide à la transcription sont ici présentées.
 
Basées souvent sur des moteurs de wiki, elles permettent la transcription collaborative (ou crowdsourcing) des textes, accélérant le traitement et conduisant à des résultats parfois étonnants en terme de qualité et de nombre de pages transcrites. Des plateformes nationales telles que celles de la bibliothèque du Congrès font ainsi appel aux passionnés d’histoire et d’archives en intègrant un workflow de validation. L’initiative allemande et européenne Transkribus se base quant à elle sur les possibilités de l’intelligence artificielle pour transcrire des manuscrits. Un apprentissage de l’utilisation du logiciel et de la plateforme liée s’avère nécessaire.
 

La transcription des manuscrits, des livres et des articles est une étape incontournable lors de nombreuses études historiques ou linguistiques de textes anciens. Si des logiciels sous PC existent, des plateformes du web apportent des fonctionnalités innovantes. Des équipes de transcripteurs peuvent collaborer sur un projet. L’application, basée sur un logiciel libre, rend le texte accessible à l’ensemble des lecteurs et des transcripteurs quelque soit le lieu, la machine utilisée et l’état d’avancement des travaux. La sauvegarde, l’historique, les révisions sont ainsi gérés de manière centralisée. Les travaux suivent un workflow.

L’interface utilisateur comprend classiquement deux parties. La visionneuse permet de voir le document au format image : on peut déplacer, agrandir ou diminuer la taille du document. Le formulaire de transcription permet la saisie au format texte, parfois en XML. La couche texte obtenue par OCR peut être récupérée automatiquement à partir du fichier PDF ou djvu. On peut ensuite corriger ou bien saisir directement les données si l’OCR s’avère impossible. Le texte peut parfois être enrichi d’indications sémantiques, voire d’annotations. Certains logiciels permettent un export des données en TEI. Quelques solutions se présentent sous la forme d’une extension disponible pour un moteur de wiki (Mediawiki), une plateforme d’archivage numérique (Omeka), ou un gestionnaire de contenu (WordPress). Des plugins augmentent les possibilités standards. Cet article propose un rapide tour d’horizon de projets et outils de transcription fonctionnels ou en cours de développement en 2012.

Wikisource

Lancé en 2003 par la fondation Wikimedia, Wikisource est un projet de bibliothèque numérique internationale mettant à disposition des lecteurs des textes anciens de toutes langues préalablement publiés, du domaine publique ou compatible avec la licence Creative Commons BY-SA 3.0. Il s’agit d’un service gratuit basé sur le logiciel libre Mediawiki. Plus de 84 000 pages en français, 358 000 pages en anglais et 83 000 pages en allemand sont ainsi accessibles en 2012. 186 langues sont représentées dont de nombreuses langues anciennes. Sur la version française de Wikisource, les livres sont classés par époque, genre, thème, type. Quelques audiolivres et traduction sont disponibles. Des portails thématiques : philosophie, histoire, mathématique, auteur, etc, facilitent l’accès à des corpus de documents déjà transcrits ou traduits. Des utilisateurs connectés ou anonymes peuvent collaborer à la transcription.

Au niveau technique, Wikisource utilise le moteur de wiki Mediawiki dont les fonctionnalités sont améliorées à l’aide notamment de l’extension Proofread Page. Wikisource permet la transcription de livres numériques au format pdf ou djvu (prononcer “déjà vu”), un format adapté pour l’archivage numérique développé par AT&T dont les fonctionnalités sont voisines de pdf. L’OCR d’une page peut être récupérée dans la boîte de saisie en cliquant sur un bouton localisé dans la barre des tâches de l’éditeur. Mediawiki permet la saisie des formules mathématiques en MathML.

Scripto

Développé depuis 2010 par le “Center for History and New Media”,  un organisme à but non lucratif à l’origine des logiciels biens connus Omeka et Zotero, Scripto est une application web sous licence GNU GPL v3 qui permet la transcription collaborative. Le logiciel est disponible sous forme d’une extension venant étendre les fonctionnalités de Drupal, de WordPress ou de la plateforme d’archivage Omeka. La dernière version du logiciel (1.1) date d’Avril 2012. Au niveau technique, les programmes PHP/Zend se basent sur l’API du moteur de wiki MediaWiki et sur différentes visionneuses au choix OpenLayers ou Google Docs Viewer.

Bentham Transcription Desk

Développé en 2010 par l’ULCC (University of London Computer Center), le logiciel sous licence GPL intègre le moteur de wiki MediaWiki complété de différentes extensions, et de la visionneuse Zoomify. Un barre d’outil personnalisable permet l’ajout de balises TEI aux textes transcrits. Le logiciel a été développé et mis en oeuvre dans le cadre d’un projet collaboratif visant à transcrire les écrits de Jeremy Bentham (1748-1832), juriste et philosophe britannique. Les développements du logiciel semblent maintenant suspendus.

Cambridge Digital Library

On ne peut pas conclure ce court article sans parler de l’initiative récente de la bibliothèque numérique de Cambridge (Cambridge Digital Library). Toutes les fonctionnalités attendues d’un logiciel de transcription collaborative de textes anciens sont présentes mais le logiciel, basé sur des briques libres, ne peut malheureusement pas être téléchargé.

Text Encoding Inititive (TEI)

Certains de ces logiciels prévoient un export en TEI, le format XML bien connu dédié à la transcription des données écrites et orales. L’initiative TEI propose aussi de nombreux outils parmi lesquels TEI Boilerplate, un cadre de travail compatible HTML5 destiné à la publication de documents TEI. Le logiciel Omeka Classic propose depuis peu un plugin destiné à produire des fichiers XML au format TEI

Autres initiatives pour la transcription

Quelques autres initiatives ont conduit à des développements logiciels remarquables. On peut ainsi citer  FromThePage ou T-PEN. Le caractère actif des développements informatiques doit être regardé attentivement avant de faire un choix technique. Des fonctionnalités logicielles équivalentes utilisant des logiciels de traduction automatique pourraient être utilisés pour la traduction.

Polyanno : https://pigeonsblue.com/other-projects/polyanno/

FromThePage : http://beta.fromthepage.com/ , http://fromthepage.balboaparkonline.org, https://fromthepage.com/

T-PEN : http://t-pen.org/TPEN/
“Collaborative Manuscript Transcription” par Ben W. Brumfield : http://manuscripttranscription.blogspot.com.au/
Présentation “Transcription Tools at TCDL 2012” :
http://manuscripttranscription.blogspot.fr/2012/05/transcription-tools-at-tcdl2012.html
Transcription Tool List : http://tinyurl.com/TranscriptionToolGDoc
Translatewiki : http://translatewiki.net
A la BNF : le projet FUI12 Ozalid

Outils pour l’annotation de textes anciens

D’autres outils s’avèrent adaptés à l’annotation :

Plateformes web de crowdsourcing

Des plateformes accessibles à tous sont proposées par de grandes bibliothèques telles que la bibliothèque du Congrès. Un workflow rend possible la validation.

  • Bibliothèque du Congrès : Lien

Transkribus

Après inscription sur la plateforme et téléchargement d’un logiciel de bureau, les images à transcrire sont segmentées en blocs et lignes. Une phase manuelle de transcription peut être entreprise, peu importe la langue ou le jeu de caractère. Des exports en TEI, RTF, PDF, XML sont possibles.

Une fois qu’une centaine d’image sont correctement transcrites, il est alors possible d’informer le Computational Intelligence Technology Lab (CITlab) de l’Université de Rostock. afin que celui-ci paramètre un moteur utilisant la technologie HTR (Handwritten Text Recognition).  D’autres pages peuvent alors être produites à l’aide des suggestions proposées par le logiciel. Cette phase pour l’instant gratuite devrait à terme devenir payante.

– use existing models for recognising printed and handwritten text
– train a neural network (« model ») specifically for your documents
– search your documents with Keyword Spotting (much more powerful than standard full-text search)
– export your documents in all common formats

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s