Voici un moyen, qui nécessiterait des outils moins courants:
- ocrodjvu
-
pdfbeads , qui a ses propres exigences et que Google peut trouver
Nous pouvons utiliser la commande djvu2hocr
(à partir du package ocrodjvu
) pour extraire le calque de texte masqué du fichier DjVu (il ne fait pas d’OCR ou similaire, il extrait uniquement le calque de texte avec une géométrie), à savoir:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
intervention corrige les noms de classes en sortie hOCR (qui est juste un simple fichier HTML)
Maintenant, nous extrayons la page DjVu au format TIFF avec:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
pour que nous terminions avec ces fichiers dans le dossier de travail:
sample.djvu
pg10.html
pg10.tif
C'est là que pdfbeads
entre en jeu, et nous exécutons simplement:
pdfbeads -o pg10.pdf
alors ce programme astucieux s'occupe de tout ce qui se trouve dans ce dossier (fichiers HTML et TIFF avec le même nom de base) et produit un fichier PDF de sortie avec certains sous-produits:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
identique au fichier d'entrée DjVu et contenant un calque de texte à l'intérieur:
Résumé des commentaires:
De longs commentaires expliquent comment représenter des images plus petites à partir de la page du document DjVu en tant qu’objets distincts, ce qui est difficile car la page du document DjVu est elle-même Si le document DjVu a des images en couleur, elles seront généralement placées sur le calque d'arrière-plan; Dans ce cas, l'utilisateur peut tirer parti d'outils tels que ddjvu
(extraire uniquement la couche d'arrière-plan) et imagemagick
(recadrage automatique) pour générer uniquement des images entières, mais il ne peut pas être automatisé pour créer des sorties PDF
Une autre approche plus sûre, mais plus lente, consiste à utiliser des outils d’interface graphique classiques. gscan2pdf
(& gt; 1.0) est suggéré comme candidat possible pour Linux PC