Format PDF et archivage numérique

logo-pdf

Créé par Adobe Systems en 1993 comme évolution du format PostScript, le format PDF (Portable Document Format) est devenu un standard de fait pour la lecture et pour l’impression de document textuels. PDF est normalisé ISO et l’évolution du format est dorénavant du ressort d’un consortium international composé de nombreux membres aux intérêts divers. L’avantage principal de PDF réside dans sa portabilité, autrement dit la possibilité de fournir une même représentation quelque soit le système de lecture ou d’impression. PDF préserve les polices, les images, les objets graphiques et la mise en forme. Des variantes du format permettent d’embarquer des fichiers du type texte, image, son, vidéo, illustration 3D, etc. Les tables des matières, les métadonnées et l’OCR (Optical Character Recognition) sont également pris en compte. Le format PDF/A est l’un des formats de référence pour l’archivage à long terme des données du type texte et image.

Dans le cas des textes numérisés, PDF permet de stocker dans deux couches distinctes l’image de la page et le texte résultant d’une opération de reconnaissance optique de caractère. Il faut cependant noter que la qualité du texte obtenu par OCR dépend grandement de la typographie du document d’origine, de la qualité de l’image, des performances du logiciel de reconnaissance optique. Des corrections manuelles sont possibles et un pourcentage d’erreur peut être spécifié de manière contractuelle. Le PDF OCRisé peut ensuite être extrait du document et indexé par un moteur et recherche.

PDF est un format binaire ouvert, et Adobe Systems accorde une licence gratuite à ceux  qui souhaitent développer des fonctionnalités de lecture ou de création de fichier PDF. Cependant le format reste propriétaire.

De multiples versions du même format sont disponibles dont un certain nombre sont normalisées au niveau international par l’International Organization for Standardization (ISO). Le format PDF 1.7 est ainsi normalisé depuis 2008 (ISO 32000-1), les formats destinées à l’archivage à long terme – PDF/A-1 (ISO 19005-1), PDF/A2 (ISO 19005-2), PDF/A3 (ISO 19005-3) – le sont respectivement depuis 2005, 2011 et 2012. PDF/X (PDF for blind eXchange), un format destiné à l’impression professionnelles est ISO 15930. PDF 2.0 est normalisé ISO 32000-2. Des bibliothèques logicielles souvent gratuites rendent possible la manipulation de lots de fichiers PDF.

Quelques informations générales

L’étude de Nick Parker

Réalisé en français par le CINES (Centre Informatique National de l’enseignement supérieur) en collaboration avec la société NUMEN et financé par le Ministère de la Culture, diffusé par le TGE Adonis et par le SIAF (Service interministériel des Archives de France), un récent guide permet d’éclairer les utilisateurs francophones sur les formats PDF, les fonctionnalités et les versions les mieux adaptées pour l’archivage. Un diaporama présenté en 2013 au groupe de travail PIN (Préservation de l’Information Numérique) complète ce document.

  • Guide méthodologique : Le format de fichiers PDF, Nick Parker, Olivier Rouchon, 2012 : Lien
  • Le format des fichiers PDF, Nick Parker, réunion du 4 janvier 2013 du groupe PIN : Lien

Bibliothèques de fonctions

Proposé par le site ScholRev à l’occasion de la rencontre « Jailbreaking the PDF Hackaton », une liste d’outils pour manipuler les documents PDF.

  • Jailbreaking the PDF; a wonderful hackathon and a community leap forward for freedom – 1, Peter Murray-Rust, 2013 : Lien
  • XpdfReader, une visionneuse de PDF open-source écrite en Qt et basée sur la bibliothèque Xpdf en C++ : Lien
  • Poppler, bibliothèque de fonctions écrite en C++, utilisée par des logiciels libres comme LibreOffice ou Inkscape : Lien
  • PDFMiner, bibliothèque de fonctions en Python : Lien
  • PDFBox, bibliothèque de fonctions en Java, supporté par la fondation Apache : Lien
  • pdf2svg, convertisseur de PDF vers SVG, basé sur PDFBox et Cairo : Lien
  • pdf-extract, une bibliothèque dédiée à l’extraction de zones de textes particulières d’un document PDF, notamment pour les articles universitaires : Lien
  • PDFX, bibliothèque logiciel et service web pour convertir un article universitaire PDF en XML : Lien
  • pdf2xml, convertit PDF en XML, basé sur XPDF et écrit pour Xerox : Lien
  • Grobid (GeneRation Of BIbliographic Data), bibliothèque Java pour convertir des documents tels que PDF en XML/TEI, adapté pour les documents techniques et publications scientifiques. Service web pour traitement de lots : Lien
  • LA-PDFText, bibliothèque Java d’extraction de texte à partir de PDF : Lien
  • pdf2htmlEX, convertisseur de PDF en HTML : Lien
  • JPedal, bibliothèque propriétaire Java développée par IDR solutions pour convertir PDF en différents formats : Lien

Un commentaire

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s