Quatre outils pour extraire les photos de votre PDF ou bien convertir PDF en HTML

pdf-logo-telechargement

Vous disposez d’un fichier PDF composé de plusieurs images et de texte. Vous souhaitez extraire les images qui le composent. Il est bien sûr possible de cliquer sur une image, de la copier avec Ctrl C pour coller dans un éditeur tel que Paint sous Windows lorsque le PDF n’est pas protégé. Il est également possible d’utiliser un service en ligne tel que ExtractPdf ou bien AvePDF. Vous souhaitez maintenant réaliser des choses plus complexes comme convertir votre PDF en un fichier texte, html, postscript, ou bien en images au format PPM, JPEG ou SVG. Les services en ligne gratuits proposés par Convertio s’avèrent également impressionnants. Les documents PDFs eux-mêmes peuvent être convertis gratuitement et dans certaines limites en une variété de formats du type image (jpg, png, svg, tiff, …) ou document (docx, ppt, odt, epub, djvu, html, txt, csv, …).

L’HTML généré par le logiciel pdf2htmlEX de Lu Wang s’avère pleinement fonctionnel. Mais pour manipuler finement des lots de PDF, des traitements en ligne de commande deviennent nécessaires. Des librairies dédiées telles que pdf2htmlEX rendent possible ce genre de manipulation. Xpdf est disponible sous Windows, Mac et Linux. Disponible sous Linux uniquement, Poppler offre des fonctionnalités comparables, et plus encore. Avec PDFtk, vous disposez à la fois d’un logiciel de bureau Windows et de commandes Linux pour réaliser des opérations spéciales, telles que le passage en mode paysage, la réparation des fichiers abîmés, l’intégration de tampons et de filigranes. Les tests de ces quelques outils se trouvent ici brièvement commentés.

  1. pdf2htmlEX
  2. Xpdf
    • 2.1 Installation sous Ubuntu
    • 2.2 Commandes Xpdf
      • 2.2.1 Informations sur le PDF, extraction des images
      • 2.2.2 Options de conversion
  3. Poppler
  4. PDFtk

1. pdf2htmlEX

Développé par Lu Wang à partir de 2012, pdf2htmlEX transcode comme son nom l’indique PDF (Portable Document Format) en HTML (Hypertext Markup Language). L’absence de perte de texte et autant que possible de présentation est recherché. L’usage se fait en ligne de commande.

2. Xpdf

xpdf-icon

La librairie Xpdf offre de nombreuses possibilités pour traiter des lots de documents PDF ou bien pour fabriquer vos propres services web. Développée par Glyph & Cog, elle est disponible sous licence GNU GPL. Plusieurs commandes sont intégrées par défaut dans des distributions Linux. La librairie est multi-plateforme et la procédure d’installation et d’utilisation sous Windows ou Mac est comparable. Quelques commandes sont ici testées.

2.1 Installation sous Ubuntu

Pour tester la visionneuse PDF, tapez en ligne de commande :

sudo apt-get install xpdf

2.2 Commandes Xpdf

La visionneuse donne son nom à la librairie. Vous disposez sous Linux d’un ensemble de commandes qui rendent aisé l’extraction des constituants d’un PDF et les changements de formats. Dans les exemples de syntaxe suivants, un répertoire nommé “dir” est créé pour accueillir les fichiers résultant des traitements.

2.2.1 Informations sur le PDF, extraction des images

Différentes commandes permettent de visionner un document, d’en extraire les métadonnées ou les images contenues.

  1. xpdf – visionner un PDF, aide :  

    • xpdf exemple.pdf
  2. pdfinfo – extraire les métadonnées, aide :

    • pdfinfo exemple.pdf
  3. pdffonts – liste des polices de caractères utilisée dans le PDF, aide :

    • pdffonts exemple.pdf
  4. pdfdetach – lister et extraire les fichiers joints à un document PDF, aide
  5. pdfimages – extraire les images du PDF. Par défaut, les images extraites sont au format ppm. L’option -j spécifie le format JPEG. Le répertoire de sauvegarde (dir) de même que le préfixe des images (img) sont précisés à l’aide de la syntaxe. Les images sont ici nommées img-000.jpg, img-001.jpg, etc…, aide :

    • pdfimages exemple.pdf ./dir/img
    • pdfimages -j exemple.pdf ./dir/img

2.2.2 Options de conversion

Le PDF peut être converti au format texte, HTML ou image – une image par page.

  1. pdftotext – convertir le PDF en fichier texte, aide :

    • pdftotext exemple.pdf ./dir/exemple.txt
  2. pdftohtml – convertir le PDF en html avec un fichier d’index, aide :

    • pdftohtml exemple.pdf ./dir/exemple.html
  3. pdftops – transformer PDF en postscript, aide :

    • pdftops exemple.pdf ./dir/exemple.ps
  4. pdftoppm – transformer un fichier PDF en images au format ppm. “img” correspond dans l’exemple au préfixe de l’image, aide :

    • pdftoppm exemple.pdf  ./dir/img

3. Poppler

poppler_logo

Disponible sous Linux uniquement, la librairie logicielle Poppler offre de nombreuses fonctionnalités similaires à Xpdf pour extraire des informations et transformer les PDFs. Les développements sont assurés par freedesktop.org (RedHat) et disponibles sous licence GNU GPL. La bibliothèque intègre les utilitaires Xpdf vu précédemment (pdfinfo, pdffonts, pdfdetach, pdfimages, pdftotext, pdftohtml, pdftops, pdftoppm). Des outils supplémentaires rendent possible d’autres manipulations.

  1. pdfseparate – extraire les pages simples d’un PDF, aide :

    • pdfseparate exemple.pdf  ./dir/page%d.pdf
  2. pdfunite – fusionner plusieurs PDF, aide :

    • pdfunite page1.pdf page2.pdf united.pdf
  3. pdftocairo – convertir un PDF en images vectorielles ou bitmap avec cairo, la bibliothèque de manipulation d’images vectorielles. Options disponibles (jpeg, png, tiff, svg, ps, eps, print, pdf), aide :

    • pdftocairo -jpeg exemple.pdf ./dir/img

4. PDFtk

pdftk-logo

Développé par Sid Steward de PDFLabs, PDFtk regroupe deux logiciels de bureau pour windows (PDFtk Free et PDFtk Pro) ainsi qu’un outil fonctionnant en ligne de commande sous Windows, Mac ou Linux (PDFtk Server). Disponible sous licence GNU GPL, la commande pdftk suit la syntaxe suivante :

pdftk fichiers_entrants opérande output fichier_sortant

Les opérations suivants sont possibles :

  • Fusionner des PDFs ou assembler des pages scannées
  • Fractionner en pages simples un document
  • Réparer un fichier corrompu lorsque possible
  • Passer en mode portrait ou paysage (faire pivoter) un document ou une page
  • Crypter et décrypter un document protégé par mot de passe
  • Remplir des questionnaires avec des données X/FDF ou FDF,
  • Générer des gabarits de données FDF à partir de formulaire PDF
  • Appliquer un filigrane en arrière-plan ou un tampon en premier plan
  • Signaler des métriques PDF, des signets et des métadonnées
  • Ajouter/Mettre à jour les signet et métadonnées
  • Attacher des fichiers à des pages ou des documents PDF
  • Extraire les fichiers attachés
  • Comprimer ou décomprimer un flux PDF

L’installation sous Ubuntu et des exemples d’utilisation sont ici disponibles :

  • PDFTK, Ubuntu, Lien
  • PDFtk Server Examples, Lien

Autres lectures possibles

  • Format PDF et archivage numérique, ArchivEngines, 2013, Lien
  • PDF 32000-1:2008 : Lien
  • AbracadabraPDF, le site Web d’un expert en PDF certifié Adobe, formateur et prestataire de services, Lien

Enjoy your portable documents !

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s