Y a-t-il un meilleur convertisseur de pdf en texte que pdftotext?

50

J'utilise pdftotext (partie de poppler-utils) pour convertir des documents PDF en texte. Cela fonctionne, pour la plupart, mais une chose que je voudrais faire était d'insérer des lignes vierges entre les paragraphes séparés au lieu de les écraser ensemble.

Y a-t-il moyen d'obtenir pdftotext pour faire cela? Et sinon, existe-t-il un autre utilitaire pdf à texte capable de faire cela?

    
posée dan 06.07.2011 - 18:54
la source

5 réponses

22

Vous pouvez essayer ebook-convert depuis Calibre.

Si quelque chose, je dirais qu'il se trompe dans l'autre sens: trop de sauts de ligne.

Une autre chose à laquelle je pense certainement est la conversion au format HTML en utilisant pdfreflow , puis convertissez le code HTML au format TXT.

    
réponse donnée frabjous 09.08.2011 - 06:52
la source
94

Si vous utilisez pdftotext , vous pouvez utiliser l’indicateur -layout pour conserver la présentation du texte sur les pages. dans votre fichier pdf d'entrée:

pdftotext -layout input.pdf output.txt
    
réponse donnée Noah 13.06.2013 - 17:25
la source
9

En tant que fan de l'open source (et automatisation) Je déteste dire cela, mais les meilleurs résultats que je viens de recevoir (sur un assez grand, PDF complexe) ont été pour l'ouvrir dans Adobe Reader, puis choisissez Fichier | Enregistrer sous texte .

(Je suis en pré-traitement pour des expériences d'analyse de texte, pas en tant que lecteur, mais je pense que mon premier et deuxième choix seraient les mêmes.)

J'ai comparé la sortie côte à côte. Mon deuxième choix est ebook-convert.

Adobe: laissé dans FF pour les sauts de page, laissé dans les numéros de page, n'a pas converti les en-têtes / paragraphes en lignes simples, mais il a des tirets fixes. Le courrier indésirable qui était caché dans le PDF n'a pas été publié. Les bonnes capitales au début des sections ont été correctement obtenues, par ex. "The", pas "T he" ou même "T he".

ebook-convert: Reste dans les numéros de page, et certains éléments cachés dans l'entête / le pied de page (mais pas de fichiers FF). Convertit la plupart des paragraphes en lignes simples. Ceux qui ont manqué sont à double interligne! Les puces ne correspondent pas toujours au texte. Correctement obtenu "The" au début du chapitre.

pdftotext (sans --layout): Pas mal, les puces sont alignées, mais le bruit des en-têtes et des pieds de page. Les FF sont là. Les traits d'union ont été enlevés. Pire pour le début des grandes lettres du chapitre: "T \ n \ nhe".

pdftotext (avec --layout): similaire, mais plus d'indentations. "T he" pour le début du chapitre.

pdftohtml & gt; & gt; pdfreflow & gt; & gt; htmltotext: Il supprime les numéros de page, mais les enregistre toujours dans l'en-tête / le pied de page. "T he" pour le début du chapitre. Les traits d'union ont été enlevés. (Il utilise plusieurs lignes par paragraphe, mais ce ne sont pas les mêmes sauts de ligne que dans les autres versions!)

    
réponse donnée Darren Cook 11.09.2013 - 04:58
la source
4

Si vous possédez un compte Google, vous pouvez utiliser Google Docs pour télécharger le fichier PDF et le transformer en texte modifiable.

    
réponse donnée xangua 06.07.2011 - 20:13
la source
1

J'ai également essayé pypdf et l'ai comparé à pdftotext sur deux documents. Il y avait plus de sauts de lignes et des noms de section séparés.

pdf2txt a généré des ordures complètes.

J'utilise souvent pdfBox (java) si pdftotext visse la sortie. Vous pourriez essayer.

    
réponse donnée Max 04.10.2013 - 20:22
la source

Lire d'autres questions sur les étiquettes