En tant que fan de l'open source (et automatisation) Je déteste dire cela, mais les meilleurs résultats que je viens de recevoir (sur un assez grand, PDF complexe) ont été pour l'ouvrir dans Adobe Reader, puis choisissez Fichier | Enregistrer sous texte .
(Je suis en pré-traitement pour des expériences d'analyse de texte, pas en tant que lecteur, mais je pense que mon premier et deuxième choix seraient les mêmes.)
J'ai comparé la sortie côte à côte. Mon deuxième choix est ebook-convert.
Adobe: laissé dans FF pour les sauts de page, laissé dans les numéros de page, n'a pas converti les en-têtes / paragraphes en lignes simples, mais il a des tirets fixes. Le courrier indésirable qui était caché dans le PDF n'a pas été publié. Les bonnes capitales au début des sections ont été correctement obtenues, par ex. "The", pas "T he" ou même "T he".
ebook-convert: Reste dans les numéros de page, et certains éléments cachés dans l'entête / le pied de page (mais pas de fichiers FF). Convertit la plupart des paragraphes en lignes simples. Ceux qui ont manqué sont à double interligne! Les puces ne correspondent pas toujours au texte. Correctement obtenu "The" au début du chapitre.
pdftotext (sans --layout): Pas mal, les puces sont alignées, mais le bruit des en-têtes et des pieds de page. Les FF sont là. Les traits d'union ont été enlevés. Pire pour le début des grandes lettres du chapitre: "T \ n \ nhe".
pdftotext (avec --layout): similaire, mais plus d'indentations. "T he" pour le début du chapitre.
pdftohtml & gt; & gt; pdfreflow & gt; & gt; htmltotext: Il supprime les numéros de page, mais les enregistre toujours dans l'en-tête / le pied de page. "T he" pour le début du chapitre. Les traits d'union ont été enlevés. (Il utilise plusieurs lignes par paragraphe, mais ce ne sont pas les mêmes sauts de ligne que dans les autres versions!)