Logiciels pour la transcription collaborative des textes anciens et des manuscrits

L’étude des livres anciens ou des manuscrits peut nécessiter une étape de transcription au cours de laquelle des caractères au format image sont transformés en caractères numériques. La reconnaissance optique de caractère (OCR) apporte généralement une aide pour automatiser le processus, mais le résultat est souvent imparfait. On peut souhaiter corriger les erreurs, ou bien lorsque les textes sont des manuscrits, l’OCR s’avère impossible. Quelques applications web spécialisées dans l’aide à la transcription sont ici présentées. Basées souvent sur des moteurs de wiki, elles permettent la transcription collaborative (ou crowdsourcing) des textes, accélérant le traitement et conduisant à des résultats parfois étonnants en terme de qualité et de nombre de pages transcrites.

 

La transcription des manuscrits, des livres et des articles est une étape incontournable lors de nombreuses études historiques ou linguistiques de textes anciens. Si des logiciels sous PC existent, des applications localisées sur le web apportent des fonctionnalités innovantes. Des équipes de transcripteurs peuvent collaborer sur un projet. L’application, basée sur un logiciel libre, rend le texte accessible à l’ensemble des lecteurs et des transcripteurs quelque soit le lieu, la machine utilisée et l’état d’avancement des travaux. La sauvegarde, l’historique, les révisions, et le projet sont ainsi gérés de manière centralisée.

L’interface utilisateur comprend deux parties. La visionneuse permet de voir le document au format image : on peut déplacer, agrandir ou diminuer la taille. Le formulaire de transcription permet la saisie au format texte ou XML. La couche texte obtenue par OCR peut être récupérée automatiquement à partir du fichier PDF ou djvu. On peut ensuite corriger ou bien saisir directement les données si L’OCR est impossible. Le texte peut parfois être enrichi d’indications sémantiques, voire d’annotations. Certains logiciels permettent un export des données en TEI. Quelques solutions se présentent sous la forme d’une extension disponible pour un moteur de wiki (Mediawiki), une plateforme d’archivage numérique (Omeka), ou un gestionnaire de contenu (WordPress). Cet article propose un rapide tour d’horizon de projets et outils de transcription fonctionnels ou en cours de développement en 2012.

Etat de l’art en matière de crowdsourcing dans les bibliothèques numériques : http://www.bnf.fr/documents/crowdsourcing_rapport.pdf
Edition collaborative de manuscrits sur Wikisource : http://latribunedesarchives.blogspot.fr/2012/02/edition-collaborative-de-manuscrits-sur.html
Une vidéo explicative de 5 minutes sur le fonctionnement de Wikisource : http://latribunedesarchives.blogspot.fr/2012/06/edition-collaborative-de-manuscrits-sur.html
Why Crowdsourcing? Why Scripto? : http://scripto.org/?p=77

Crowdsourcing : et si vous donniez de votre temps aux archives ?, Libération, 28/03/2016 http://caos.blogs.liberation.fr/2016/03/28/crowdsourcing-et-si-vous-donniez-de-votre-temps-aux-archives/

Wikisource

Lancé en 2003 par la fondation Wikimedia, Wikisource est un projet de bibliothèque numérique internationale mettant à disposition des lecteurs des textes anciens de toutes langues préalablement publiés, du domaine publique ou compatible avec la licence Creative Commons BY-SA 3.0. Il s’agit d’un service gratuit basé sur le logiciel libre Mediawiki. Plus de 84 000 pages en français, 358 000 pages en anglais et 83 000 pages en allemand sont ainsi accessibles en 2012. 186 langues sont représentées dont de nombreuses langues anciennes. Sur la version française de Wikisource, les livres sont classés par époque, genre, thème, type. Quelques audiolivres et traduction sont disponibles. Des portails thématiques : philosophie, histoire, mathématique, auteur, etc, facilitent l’accès à des corpus de documents déjà transcrits ou traduits. Des utilisateurs connectés ou anonymes peuvent collaborer à la transcription.

Au niveau technique, Wikisource utilise le moteur de wiki Mediawiki dont les fonctionnalités sont améliorées à l’aide notamment de l’extension Proofread Page. Wikisource permet la transcription de livres numériques au format pdf ou djvu (prononcer “déjà vu”), un format adapté pour l’archivage numérique développé par AT&T dont les fonctionnalités sont voisines de pdf. L’OCR d’une page peut être récupérée dans la boîte de saisie en cliquant sur un bouton localisé dans la barre des tâches de l’éditeur. Mediawiki permet la saisie des formules mathématiques en MathML.

Wikisource : http://wikisource.org
Wikisource france : http://fr.wikisource.org
L’aide de Wikisource france concernant la transcription des livres : http://fr.wikisource.org/wiki/Aide:Espace_%C2%AB_Livre_%C2%BB
Wikisource sur Wikipedia : http://fr.wikipedia.org/wiki/Wikisource
Portails Wikisource France : http://fr.wikisource.org/wiki/Portail:Classification_des_portails_et_des_cat%C3%A9gories
Ressources françaises libres de droit : http://fr.wikisource.org/wiki/Wikisource:Ressources_libres_de_droit
Essai sur l’entendement humain (1735 John Locke, traduction par Pierre Coste, transcription Walpole, Loudubewe, Zaran) :
http://fr.wikisource.org/wiki/Page:Locke_-_Essai_sur_l%E2%80%99entendement_humain.djvu/44
Comptes rendus hebdomadaires des séances de l’Académie des sciences, tome 136, 1903.djvu : http://fr.wikisource.org/wiki/Livre:Comptes_rendus_hebdomadaires_des_s%C3%A9ances_de_l%E2%80%99Acad%C3%A9mie_des_sciences,_tome_136,_1903.djvu
Henri Poincaré sur Wikisource : http://fr.wikisource.org/wiki/Auteur:Henri_Poincaré
DjVu sur Wikipedia : http://fr.wikipedia.org/wiki/Djvu
MediaWiki : http://www.mediawiki.org/wiki/MediaWiki
Extension Proofread Page par ThomasV : http://www.mediawiki.org/wiki/Extension:Proofread_Page/fr
Saisie des fonctions mathématiques dans Mediawiki : http://en.wikisource.org/wiki/Help:Mathematics_and_Wikisource:_fractions_and_functions

Scripto

Développé depuis 2010 par le “Center for History and New Media”,  un organisme à but non lucratif à l’origine des logiciels biens connus Omeka et Zotero, Scripto est une application web sous licence GNU GPL v3 qui permet la transcription collaborative. Le logiciel est disponible sous forme d’une extension venant étendre les fonctionnalités de Drupal, de WordPress ou de la plateforme d’archivage Omeka. La dernière version du logiciel (1.1) date d’Avril 2012. Au niveau technique, les programmes PHP/Zend se basent sur l’API du moteur de wiki MediaWiki et sur différentes visionneuses au choix OpenLayers ou Google Docs Viewer.

Scripto : http://scripto.org
OpenLayers : http://openlayers.org/
Google Docs Viewer : https://docs.google.com/viewer?hl=fr&pli=1
University of Iowa Library : http://diyhistory.lib.uiowa.edu/, http://diyhistory.lib.uiowa.edu/transcribe/
Mines Paris-Tech : https://patrimoine.mines-paristech.fr/scripto/transcribe/880/139015

Bentham Transcription Desk

Développé en 2010 par l’ULCC (University of London Computer Center), le logiciel sous licence GPL intègre le moteur de wiki MediaWiki complété de différentes extensions, et de la visionneuse Zoomify. Un barre d’outil personnalisable permet l’ajout de balises TEI aux textes transcrits. Le logiciel a été développé et mis en oeuvre dans le cadre d’un projet collaboratif visant à transcrire les écrits de Jeremy Bentham (1748-1832), juriste et philosophe britannique. Les développements du logiciel semblent maintenant suspendus.

Site : http://www.ucl.ac.uk/transcribe-bentham/
Code source : http://code.google.com/p/tb-transcription-desk/

Autres initiatives

Quelques autres initiatives ont conduit à des développements logiciels remarquables. On peut ainsi citer  FromThePage ou T-PEN. Le caractère actif des développements informatiques doit être regardé attentivement avant de faire un choix technique. Des fonctionnalités logicielles équivalentes utilisant des logiciels de traduction automatique pourraient être utilisés pour la traduction.

FromThePage : http://beta.fromthepage.com/ , http://fromthepage.balboaparkonline.org
T-PEN : http://t-pen.org/TPEN/
“Collaborative Manuscript Transcription” par Ben W. Brumfield : http://manuscripttranscription.blogspot.com.au/
Présentation “Transcription Tools at TCDL 2012” :
http://manuscripttranscription.blogspot.fr/2012/05/transcription-tools-at-tcdl2012.html
Transcription Tool List : http://tinyurl.com/TranscriptionToolGDoc
Translatewiki : http://translatewiki.net
A la BNF : le projet FUI12 Ozalid

Cambridge Digital Library

On ne peut pas conclure ce court article sans parler de l’initiative récente de la bibliothèque numérique de Cambridge (Cambridge Digital Library). Toutes les fonctionnalités attendues d’un logiciel de transcription collaborative de textes anciens sont présentes mais le logiciel, basé sur des briques libres, ne peut malheureusement pas être téléchargé.

Transcription d’une lettre de Darwin à Hooker (1843) : http://cudl.lib.cam.ac.uk/view/MS-DAR-00114-00001/1

Text Encoding Inititive (TEI)

Certains de ces logiciels prévoient un export en TEI, le format XML bien connu dédié à la transcription des données écrites et orales. L’initiative TEI propose aussi de nombreux outils parmi lesquels TEI Boilerplate, un cadre de travail compatible HTML5 destiné à la publication de documents TEI.

TEI Boilerplate : http://teiboilerplate.org

Annotation de textes anciens

D’autres outils s’avèrent adaptés à l’annotation :

http://johannadaniel.fr/isidoreganesh/2015/04/mise-en-ligne-memoire-outils-annotation/

Voire à l’annotation collaborative :

http://neonion.org/

, , ,

  1. Poster un commentaire

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :