Format PDF et archivage numérique

Créé par Adobe Systems en 1993 comme évolution du format PostScript, le format PDF (Portable Document Format) est devenu un standard de fait pour lire et imprimer des document textuels. PDF est normalisé ISO et l’évolution du format est dorénavant du ressort d’un consortium international composé de nombreux membres aux intérêts divers. L’avantage principal de PDF réside dans sa portabilité, autrement dit la possibilité de fournir un même rendu quelque soit le système de lecture ou d’impression. PDF préserve les polices, les images, les objets graphiques et la mise en forme. Des variantes du format permettent d’embarquer des fichiers du type texte, image, son, vidéo, illustration 3D, etc. Les tables des matières, les métadonnées et l’OCR (Optical Character Recognition) sont également pris en compte. Le format PDF/A est l’un des formats de référence pour l’archivage à long terme des données du type texte et image.

Dans le cas des textes numérisés, PDF permet de stocker dans deux couches distinctes l’image de la page et le texte résultant d’une opération de reconnaissance optique de caractère. Il faut cependant noter que la qualité du texte obtenu par OCR dépend grandement de la typographie du document d’origine, de la qualité de l’image, des performances du logiciel de reconnaissance optique. Des corrections manuelles sont possibles et un pourcentage d’erreur peut être spécifié de manière contractuelle lorsque les numérisations sont sous-traitées. Le PDF OCRisé peut ensuite être extrait du document et indexé par un moteur et recherche.

PDF est un format binaire ouvert, et Adobe Systems accorde une licence gratuite à ceux qui souhaitent développer des fonctionnalités de lecture ou de création de fichier PDF. Cependant le format reste propriétaire. De multiples versions sont disponibles dont un certain nombre normalisées par l’International Organization for Standardization (ISO). Le format PDF 1.7 est ainsi normalisé depuis 2008 (ISO 32000-1), les formats destinées à l’archivage à long terme – PDF/A-1 (ISO 19005-1), PDF/A2 (ISO 19005-2), PDF/A3 (ISO 19005-3) – le sont respectivement depuis 2005, 2011 et 2012. PDF/X (PDF for blind eXchange), un format destiné à l’impression professionnelles est ISO 15930. PDF 2.0 est normalisé ISO 32000-2. Des bibliothèques logicielles souvent gratuites rendent possible la manipulation de lots de fichiers PDF.

Portable Document Format, PDF/A, ISO 32000

1. Une étude sur PDF

Réalisé en français par le CINES (Centre Informatique National de l’enseignement supérieur) en collaboration avec la société NUMEN et financé par le Ministère de la Culture, diffusé par le TGE Adonis et par le SIAF (Service interministériel des Archives de France), un récent guide permet d’éclairer les utilisateurs francophones sur les multiples formats PDF, les fonctionnalités et les versions les mieux adaptées pour l’archivage. Un diaporama présenté en 2013 au groupe de travail PIN (Préservation de l’Information Numérique) complète ce document.

Guide méthodologique : Le format de fichiers PDF, Nick Parker, Olivier Rouchon, 2012 : Lien
Le format des fichiers PDF, Nick Parker, réunion du 4 janvier 2013 du groupe PIN : Lien

2. Bibliothèques de fonctions

Deux types d’opérations informatiques peuvent être faites avec PDF. Un fichier peut être synthétisé de manière programmée sur la base de textes divers, d’images et d’objets multimédias. Ces mêmes objets numériques peuvent être extraits d’un PDF. Proposé par le site ScholRev à l’occasion de la rencontre « Jailbreaking the PDF Hackaton », une liste d’outils pour manipuler les documents PDF :

Jailbreaking the PDF; a wonderful hackathon and a community leap forward for freedom – 1, Peter Murray-Rust, 2013 : Lien
wk<html>topdf, wkhtmltopdf and wkhtmltoimage are open source (LGPLv3) command line tools to render HTML into PDF and various image formats using the Qt WebKit rendering engine Lien
Poppler, bibliothèque de fonctions écrite en C++, utilisée par des logiciels libres comme LibreOffice ou Inkscape : Lien
PDFMiner, bibliothèque de fonctions en Python : Lien
PDFBox, bibliothèque de fonctions en Java, supporté par la fondation Apache : Lien
pdf2svg, convertisseur de PDF vers SVG, basé sur PDFBox et Cairo : Lien
pdf-extract, une bibliothèque dédiée à l’extraction de zones de textes particulières d’un document PDF, notamment pour les articles universitaires : Lien
PDFX, bibliothèque logiciel et service web pour convertir un article universitaire PDF en XML : Lien
pdf2xml, convertit PDF en XML, basé sur XPDF et écrit pour Xerox : Lien
Grobid (GeneRation Of BIbliographic Data), bibliothèque Java pour convertir des documents tels que PDF en XML/TEI, adapté pour les documents techniques et publications scientifiques. Service web pour traitement de lots : Lien
LA-PDFText, bibliothèque Java d’extraction de texte à partir de PDF : Lien
pdf2htmlEX, convertisseur de PDF en HTML : Lien
JPedal, bibliothèque propriétaire Java développée par IDR solutions pour convertir PDF en différents formats : Lien