Conversion de DJVU en PDF

35

Je souhaite convertir un document DJVU en document PDF, en séparant et en conservant le calque de texte et les images tout en conservant la structure . de la DJVU. Comment puis-je le faire dans Ubuntu?

(Je me servirai ensuite de Calibre pour convertir en ePub / Mobi, donc s'il y avait un plug-in Caliber pour processus qui serait parfait pour moi!)

Remarque 1: Impression depuis Evince, exportation depuis DJview ou tout autre élément utilisant le package ddjvu , ne sont pas des solutions adéquates, car ils suppriment le calque de texte en enregistrant uniquement les images.

Note2: L'utilisation de DJVULibre semble extrait uniquement le calque de texte et les images ne sont pas extraites . De même, la copie "manuelle" du texte perd la structure du document et les images.

    
posée hayd 31.05.2011 - 16:52
la source

6 réponses

35

Méthode 1

Utilisez simplement DJView et exportez au format PDF

  1. Goto Synaptic Package Manager
  2. Installer DJview4
  3. Exécuter DJview (Applications - Graphiques - DJView4)
  4. Ouvrez votre document .djvu
  5. : Menu - Exporter sous: PDF

Méthode 2

Ouvrez le fichier djvu dans evince
Sélectionnez imprimer ---- & gt; imprimer pour classer
changez .ps en .pdf et cliquez sur print

Méthode 3

  1. Goto Synaptic Package Manager
  2. Installer

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Goto terminal and write

     sudo apt-get install libtiff-tools
    
  4. Allez dans le répertoire où le fichier djvu est présent. Cliquez avec le bouton droit de la souris. Aller à l'option "Open In Terminal". Clique dessus. Un terminal s'ouvrira.

  5. Dans ce terminal, écrivez

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Méthode 4

Il existe également un convertisseur en ligne Convertisseur DjVu en PDF

    
réponse donnée Ashu 16.04.2012 - 17:25
la source
16

Voici un moyen, qui nécessiterait des outils moins courants:

  1. ocrodjvu
  2. pdfbeads , qui a ses propres exigences et que Google peut trouver

Nous pouvons utiliser la commande djvu2hocr (à partir du package ocrodjvu ) pour extraire le calque de texte masqué du fichier DjVu (il ne fait pas d’OCR ou similaire, il extrait uniquement le calque de texte avec une géométrie), à ​​savoir:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed intervention corrige les noms de classes en sortie hOCR (qui est juste un simple fichier HTML)

Maintenant, nous extrayons la page DjVu au format TIFF avec:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

pour que nous terminions avec ces fichiers dans le dossier de travail:

sample.djvu
pg10.html
pg10.tif

C'est là que pdfbeads entre en jeu, et nous exécutons simplement:

pdfbeads -o pg10.pdf

alors ce programme astucieux s'occupe de tout ce qui se trouve dans ce dossier (fichiers HTML et TIFF avec le même nom de base) et produit un fichier PDF de sortie avec certains sous-produits:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

identique au fichier d'entrée DjVu et contenant un calque de texte à l'intérieur:

Résumé des commentaires:

De longs commentaires expliquent comment représenter des images plus petites à partir de la page du document DjVu en tant qu’objets distincts, ce qui est difficile car la page du document DjVu est elle-même Si le document DjVu a des images en couleur, elles seront généralement placées sur le calque d'arrière-plan; Dans ce cas, l'utilisateur peut tirer parti d'outils tels que ddjvu (extraire uniquement la couche d'arrière-plan) et imagemagick (recadrage automatique) pour générer uniquement des images entières, mais il ne peut pas être automatisé pour créer des sorties PDF

Une autre approche plus sûre, mais plus lente, consiste à utiliser des outils d’interface graphique classiques. gscan2pdf (& gt; 1.0) est suggéré comme candidat possible pour Linux PC

    
réponse donnée zetah 16.04.2012 - 18:28
la source
3

En utilisant DJVULibre , vous pouvez extraire le calque de texte via la commande terminal :

djvutxt myfile.djvu > myfile-ocr.txt ou djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(les deux font la même chose et ont été trouvés ici )

La mise en forme nécessite un certain effort (car de nombreux symboles ne sont pas convertis correctement) et les images ne sont pas récupérées .

    
réponse donnée hayd 06.06.2011 - 15:38
la source
2

Il y a djvu2pdf mais il s'appuie sur ghostscript. Il peut donc s'agir d'une autre option d'impression. Je vous suggère toujours de jeter un coup d'œil, juste au cas où il serait plus intelligent que je ne le lui attribue.

Ce n'est pas dans les repos mais vous pouvez télécharger un fichier deb depuis le site du fabricant: lien

** Insérez un avis obligatoire sur le téléchargement / l’installation de choses en dehors des repos ici **

    
réponse donnée Oli 31.05.2011 - 17:17
la source
0

Le moyen le plus simple: utilisez gscan2pdf pour importer le djvu, puis OCR avec tesseract, et enfin enregistrez-le en format pdf. Le texte OCR dans le pdf peut être légèrement différent du djvu original, et la conversion peut prendre un certain temps, mais cette méthode est une évidence et ça marche.

    
réponse donnée Fazul 12.04.2015 - 23:35
la source
-1

lien - En utilisant ce site, vous pouvez convertir djvu en pdf.

    
réponse donnée Curious Apprentice 17.04.2012 - 13:05
la source

Lire d'autres questions sur les étiquettes