Cinq outils pour extraire les photos de votre PDF ou convertir PDF en HTML

pdf-logo-telechargement

Vous disposez d’un fichier PDF composé de plusieurs images et de texte. Vous souhaitez extraire individuellement les images. La solution passe en première approche par l’utilisation d’un service en ligne tel que ExtractPdf. Vous souhaitez maintenant convertir votre PDF en un fichier texte, html, postscript, ou bien en images au format PPM, JPEG ou SVG. Les services en ligne gratuits proposés par Convertio s’avèrent alors impressionnants. Mais pour manipuler plus finement des lots de PDF, des traitements en ligne de commande deviennent nécessaires. Ainsi, la librairie logicielle Xpdf disponible sous Windows, Mac et Linux rend possible des usages avancés. Disponible sous Linux uniquement, Poppler offre des fonctionnalités comparables, et plus encore. Avec PDFtk, vous disposez à la fois d’un logiciel de bureau Windows et de commandes Linux pour réaliser des opérations spéciales, telles que le passage en mode paysage, la réparation des fichiers abîmés, l’intégration de tampons et de filigranes. Un survol de ces cinq outils est ici proposé.

1. ExtractPDF

Après sélection du fichier PDF à manipuler, appuyez sur “Démarrer”. On visualise les images incluses dans le PDF, les 100 premières lignes du texte, les polices utilisées et les métadonnées. Les onglets rendent aisé l’affichage de ces éléments qui peuvent être téléchargés. Cerise sur le gâteau, l’interface web est disponible en français. De nombreux sites webs similaires existent, financés par la publicité essentiellement.

Service web : https://www.extractpdf.com/fr.html

extractpdf

Affichage après traitement d’un fichier PDF avec ExtractPDF.com

2. Convertio

convertio-logo

Convertio est un service en ligne spécialisé, comme son nom l’indique dans le reformatage des fichiers. Les documents PDFs peuvent être convertis gratuitement dans certaines limites en une variété de formats du type image (jpg, png, svg, tiff, …) ou document (docx, ppt, odt, epub, djvu, html, txt, csv, …). L’OCR d’images de textes imprimés est également proposée de même que la compression des PDFs. L’HTML généré à partir du PDF (par le logiciel pdf2htmlEX : https://github.com/coolwanglu/pdf2htmlex) s’avère pleinement fonctionnel. Un plugin de chrome facilite l’accès direct aux services. L’inscription payante donne accès à des conversions non limitées.

Service web : https://convertio.co/fr/

3. Xpdf

xpdf-icon

La librairie Xpdf offre de nombreuses possibilités pour traiter des lots de documents PDF ou bien pour fabriquer vos propres services web. Développée par Glyph & Cog, elle est disponible sous licence GNU GPL. Plusieurs commandes sont intégrées par défaut dans des distributions Linux. La librairie est multi-plateforme et la procédure d’installation et d’utilisation sous Windows ou Mac est comparable.

3.1 Installation sous Ubuntu

Pour tester la visionneuse PDF, tapez en ligne de commande :

sudo apt-get install xpdf

3.2 Commandes Xpdf

La visionneuse donne son nom à la librairie. Vous disposez sous Linux d’un ensemble de commandes qui rendent aisé l’extraction des constituants d’un PDF et les changements de formats. Dans les exemples de syntaxe suivants, un répertoire nommé “dir” est créé pour accueillir les fichiers résultant des traitements.

3.2.1 Informations sur le PDF, extraction des images avec Xpdf

Différentes commandes permettent de visionner un document, d’en extraire les métadonnées ou les images contenues.

  1. xpdf – visionner un PDF, aide :  

    • xpdf exemple.pdf
  2. pdfinfo – extraire les métadonnées, aide :

    • pdfinfo exemple.pdf
  3. pdffonts – liste des polices de caractères utilisée dans le PDF, aide :

    • pdffonts exemple.pdf
  4. pdfdetach – lister et extraire les fichiers joints à un document PDF, aide
  5. pdfimages – extraire les images du PDF. Par défaut, les images extraites sont au format ppm. L’option -j spécifie le format JPEG. Le répertoire de sauvegarde (dir) de même que le préfixe des images (img) sont précisés à l’aide de la syntaxe. Les images sont ici nommées img-000.jpg, img-001.jpg, etc…, aide :

    • pdfimages exemple.pdf ./dir/img
    • pdfimages -j exemple.pdf ./dir/img

3.2.2 Changements de format avec Xpdf

Le PDF peut être converti au format texte, HTML ou image – une image par page.

  1. pdftotext – convertir le PDF en fichier texte, aide :

    • pdftotext exemple.pdf ./dir/exemple.txt
  2. pdftohtml – convertir le PDF en html avec un fichier d’index, aide :

    • pdftohtml exemple.pdf ./dir/exemple.html
  3. pdftops – transformer PDF en postscript, aide :

    • pdftops exemple.pdf ./dir/exemple.ps
  4. pdftoppm – transformer un fichier PDF en images au format ppm. “img” correspond dans l’exemple au préfixe de l’image, aide :

    • pdftoppm exemple.pdf  ./dir/img

4. Poppler

poppler_logo

Disponible sous Linux uniquement, la librairie logicielle Poppler offre de nombreuses fonctionnalités similaires à Xpdf pour extraire des informations et transformer les PDFs. Les développements sont assurés par freedesktop.org (RedHat) et disponibles sous licence GNU GPL. La bibliothèque intègre les utilitaires Xpdf vu précédemment (pdfinfo, pdffonts, pdfdetach, pdfimages, pdftotext, pdftohtml, pdftops, pdftoppm). Des outils supplémentaires rendent possible d’autres manipulations.

  1. pdfseparate – extraire les pages simples d’un PDF, aide :

    • pdfseparate exemple.pdf  ./dir/page%d.pdf
  2. pdfunite – fusionner plusieurs PDF, aide :

    • pdfunite page1.pdf page2.pdf united.pdf
  3. pdftocairo – convertir un PDF en images vectorielles ou bitmap avec cairo, la bibliothèque de manipulation d’images vectorielles. Options disponibles (jpeg, png, tiff, svg, ps, eps, print, pdf), aide :

    • pdftocairo -jpeg exemple.pdf ./dir/img

5. PDFtk

pdftk-logo

Développé par Sid Steward de PDFLabs, PDFtk regroupe deux logiciels de bureau pour windows (PDFtk Free et PDFtk Pro) ainsi qu’un outil fonctionnant en ligne de commande sous Windows, Mac ou Linux (PDFtk Server). Disponible sous licence GNU GPL, la commande pdftk suit la syntaxe suivante :

pdftk fichiers_entrants opérande output fichier_sortant

Les opérations suivants sont possibles :

  • Fusionner des PDFs ou assembler des pages scannées
  • Fractionner en pages simples un document
  • Réparer un fichier corrompu lorsque possible
  • Passer en mode portrait ou paysage (faire pivoter) un document ou une page
  • Crypter et décrypter un document protégé par mot de passe
  • Remplir des questionnaires avec des données X/FDF ou FDF,
  • Générer des gabarits de données FDF à partir de formulaire PDF
  • Appliquer un filigrane en arrière-plan ou un tampon en premier plan
  • Signaler des métriques PDF, des signets et des métadonnées
  • Ajouter/Mettre à jour les signet et métadonnées
  • Attacher des fichiers à des pages ou des documents PDF
  • Extraire les fichiers attachés
  • Comprimer ou décomprimer un flux PDF

L’installation sous Ubuntu et des exemples d’utilisation sont ici disponibles :

  • PDFTK, Ubuntu, Lien
  • PDFtk Server Examples, Lien

Autres lectures possibles

  • Format PDF et archivage numérique, ArchivEngines, 2013, Lien
  • PDF 32000-1:2008 : Lien
  • AbracadabraPDF, le site Web d’un expert en PDF certifié Adobe, formateur et prestataire de services, Lien

Enjoy your portable documents !

Publicités

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s