Étant donné que vous avez essayé pdftotext avec succès, le fichier PDF est simplement une image numérisée et vous devez l’agréger par OCR. / p>
J'ai remarqué que si un fichier grep
n’avait pas de police, il est généralement impossible de le rechercher. Donc, sachant cela, nous pouvons utiliser pdf
.
Les deux premières lignes du pdffonts
sont l’en-tête de la table, donc quand un fichier est consultable a plus de deux lignes de sortie, sachant que nous pouvons créer:
gedit check_pdf_searchable.sh
puis collez ceci
#!/bin/bash
#set -vx
if (('pdffonts "" | wc -l' < 3 )); then
echo
pypdfocr ""
fi
alors rendez-le exécutable
chmod +x check_pdf_searchable.sh
puis lister tous les fichiers PDF non consultables dans le répertoire:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
ou dans le répertoire et ses sous-répertoires:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}