Format PDF et archivage numérique

logo-pdfCréé par Adobe Systems en 1993, le format PDF (Portable Document Format) est devenu un standard de fait pour la lecture et pour l’impression de document textuels, dans les domaines de l’édition et de l’ingénierie (plans). L’avantage principal du format réside dans sa portabilité, autrement dit sa compatibilité multiplateforme (c’est l’objectif de conception initial). Le format préserve les polices, les images, les objets graphiques et la mise en forme quelque soit l’appareil ou l’application utilisés pour la lecture. Certaines variantes du format permettent d’embarquer des fichiers du type texte, image, son, vidéo, illustration 3D, etc. Les tables des matières et les métadonnées peuvent être prises en compte. C’est l’un des formats de référence pour l’archivage à long terme des données textuelles.

Dans le domaine des textes anciens, les fichiers PDF permettent de stocker en parallèle l’image d’une page numérisée et le texte résultant d’une opération d’OCR, assurant un rendu proche de l’original. Il faut cependant noter que la qualité du texte résultant de l’OCR dépend de la typographie du document d’origine, de la qualité de la numérisation, des performances du logiciel de reconnaissance optique de caractère. Des corrections manuelles sont possibles et un pourcentage d’erreur peut être précisé de manière contractuelle avec un fournisseur. Le texte PDF peut ensuite être indexé par un moteur et recherche.

PDF est un format binaire ouvert, et Adobe Systems accorde une licence gratuite à ceux  qui souhaitent développer des fonctionnalités de lecture ou de création de fichier PDF. Cependant le format reste une propriété d’Adobe qui est seul à même de réaliser de nouvelles versions. L’histoire du format s’avère complexe, et cela peut poser question aux spécialistes de l’archivage à long terme des données numériques.

De nombreuses versions du format sont en effet disponibles dont  certaines sont normalisées par  l’ISO (International Organization for Standardization). Le format PDF 1.7 est normalisé depuis 2008, les formats destinées à l’archivage à long terme – PDF/A1, PDF/A2, PDF/A3 – le sont respectivement depuis 2005, 2011 et 2012, garantissant la possibilité future de toujours disposer d’un outil de visualisation. Le dernier format en date, le PDF 2.0 est en cours de normalisation.

Réalisé en français par le CINES (Centre Informatique National de l’enseignement supérieur) en collaboration avec la société NUMEN, financé par le Ministère de la Culture, diffusé par le TGE Adonis et par le SIAF (Service interministériel des Archives de France), un récent guide ainsi qu’un diaporama réalisés par Nick Parker permettent d’éclairer les utilisateurs francophones sur les formats PDF, les fonctionnalités et les versions les mieux adaptées pour l’archivage :

Guide méthodologique : Le format de fichiers PDF, Nick Parker, Olivier Rouchon, 2012
http://www.tge-adonis.fr/ressources/guide-methodologique-le-format-de-fichiers-pdf/13-aout-2012

Le format des fichiers PDF, Nick Parker, réunion du 4 janvier 2013 du groupe PIN (Pérennisation des Informations Numériques) : http://pin.association-aristote.fr/lib/exe/fetch.php/public/presentations/2013/pin20130104_1pdf.pdf

PDF to PDF/A: Evaluation of Converter Software for Implementation in Digital Repository Workflow : http://koojamin.com/v2/wp-content/uploads/2013/04/iPRES_PAPER86_Abstract.pdf

Proposé par le site ScholRev à l’occasion de la rencontre « Jailbreaking the PDF Hackaton », une liste d’outils libres permet de manipuler les données et les métadonnées des documents PDF.

Partridge

xpdf

poppler PDF tools

PDFMiner

PDFBox

PDF2SVG

PDFExtract

pdf-extract

PDFX

ParsCit + SectLabel

pdf2xml (1)

Grobid

pdf2xml (2)

JPedal

LA-PDFText

pdf2htmlEX

Biblio::Citation::Parser

Python NLTK

  1. Poster un commentaire

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :