Quelle est la meilleure solution d'OCR?

63

Je voudrais numériser une bonne quantité de documents que je traîne, avec le moins de tracas possible. Je voudrais les convertir en images en utilisant Simple Scan, puis les convertir en texte en utilisant OCR. Existe-t-il une bonne application OCR avec une interface graphique qui me donnera de bons résultats en appuyant simplement sur un bouton?

    
posée Bou 05.12.2010 - 11:32
la source

7 réponses

62
  • GOCR à partir de est un programme OCR (Optical Character Recognition). Il convertit les images numérisées du texte en fichiers texte.

  • CLARA est une autre option graphique intéressante.

  • OCRAD de est un OCR peut être utilisé comme une application console autonome, ou en tant que backend à d'autres programmes.

  • KOOKA à partir de est une application KDE qui fonctionne bien, en plus vous devez installer des programmes OCR tels que GOCR et OCRAD. Après avoir installé Kooka et les programmes OCR, vous devez pointer Kooka vers le lieu d'installation OCR pour pouvoir convertir le programme. JPEG au texte.

  • OCRFeeder à partir de est une analyse de mise en page de document et un système de reconnaissance optique de caractères.

  • Tesseract à partir de est un utilitaire de ligne de commande et il est très simple à utiliser. a href="http://apt.ubuntu.com/p/tesseract-ocr-eng"> ici .

Consultez cette page .

Remarque:
Pour exécuter tesseract allez au terminal et tapez ce qui suit

tesseract imagefile.tif outputfile.txt

Tesseract ne peut lire qu'un fichier TIFF - si vous avez un fichier JPEG ou PDF ou autre, vous devrez le convertir. En outre, l’extension du nom de fichier doit être .tif, pas .tiff, sinon tesseract des erreurs.

    
réponse donnée karthick87 05.12.2010 - 11:38
la source
8

solution Linux-intelligent-ocr

disclaimer - Je suis étroitement lié au développement de cette solution opensource

Lios peut convertir l'impression en texte à l'aide d'un scanner ou d'une caméra.

Il peut également produire du texte à partir d'images numérisées provenant d'autres sources, telles que des images au format PDF, image ou dossier.

Le programme bénéficie d’une accessibilité totale pour les malvoyants.

Depuis que je suis étroitement lié - j'adorerais les commentaires.

réponse donnée Nalin.x.Linux 13.11.2012 - 02:57
la source
8

Il existe peu d’outils de ligne de commande OCR populaires que vous pouvez utiliser (je ne suis pas sûr qu’ils aient une interface utilisateur graphique):

  • Tesseract ( Lisez-moi , FAQ ) (Python)

    Disponible également pour: Tesseract .NET , Tesseract iOS

      

    Un moteur d’OCR développé chez HP Labs entre 1985 et 1995 ...   et maintenant chez Google. Tesseract est probablement le logiciel libre le plus précis   Moteur OCR disponible.

    Utilisation:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

      

    Reconnaissance de caractères open-source. Il convertit les images numérisées du texte   Retour aux fichiers texte. GOCR peut être utilisé avec différents frontaux, qui   facilite le portage vers différents systèmes d’exploitation et architectures. Ça peut   ouvrir de nombreux formats d’images, et sa qualité s’améliore   au quotidien.

  • OCRopus ™ ( FAQ ) (écrit en Python, NumPy et SciPy)

      

    Système OCR axé sur l’utilisation de   apprentissage automatique à grande échelle pour résoudre les problèmes dans le document   analyse, analyse de la mise en page enfichable, reconnaissance des caractères enfichables, modélisation statistique du langage naturel et capacités multilingues.

         

    Le moteur OCRopus est basé sur deux projets de recherche:   reconnaissance de l'écriture manuscrite haute performance développée au milieu des années 90 et   déployé par le bureau du recensement des États-Unis et une nouvelle mise en page performante   méthodes d'analyse.

         

    OCRopus is development est sponsorisé par Google et est initialement   destiné aux efforts de conversion de documents à haut débit et à volume élevé.   Nous nous attendons à ce que ce soit aussi un excellent système de reconnaissance optique de caractères pour de nombreux autres   applications.

  • Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

      

    Tesseract est un moteur OCR open source C ++. Tessnet2 est un assemblage .NET   qui exposent des méthodes très simples pour faire OCR. Tessnet2 est sous licence Apache 2 (comme tesseract), ce qui signifie que vous pouvez l’utiliser comme vous le souhaitez, inclus dans les produits commerciaux.

Peu d’autres: ABBYY CLI OCR pour Linux , Asprise OCR

Pour une liste plus complète, vérifiez: Liste des logiciels de reconnaissance optique de caractères sur Wikipedia

Voir aussi: wanghaisheng/awesome-ocr - Une liste organisée des ressources prometteuses d'OCR sur GitHub.

    
réponse donnée kenorb 19.09.2014 - 14:04
la source
6

Gscan2PDF

OCR sur plusieurs pages PDF ou documents numérisés

C'est probablement la manière la plus simple. Gscan2pdf est un outil graphique qui vous permet non seulement d'analyser des fichiers, mais aussi d'importer des fichiers et d'effectuer une reconnaissance optique de caractères. Installez gscan2pdf à partir d'ici , à partir du Centre logiciel Ubuntu ou en exécutant cette commande dans un terminal:

sudo apt-get install gscan2pdf
  • Exécuter gscan2pdf
  • Importer le pdf (Ctrl + O)
  • Facultatif: Outils & gt; Nettoyer
  • Choisissez Outils & gt; OCR Save (Ctrl + S)

Gscan2PDF peut utiliser des moteurs OCR personnalisables, la valeur par défaut est tesseract-ocr

Vous pouvez envisager de sélectionner la langue appropriée. Dans ce cas, vous devrez installer tesseract-ocr-LANG package, où LANG correspond au code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.

  • Source
réponse donnée mxdsp 03.02.2016 - 21:54
la source
2

Je viens de réussir (sous 16.04) avec pdfocr.rb . Ceci est répertorié sur Wiki Ubuntu

Voici un ppa mais le référentiel de 16.04 n’est pas à jour. Le script ruby ​​ci-dessus de github fonctionne toujours avec 16.04.

Vous pouvez le télécharger depuis Github. Vous aurez besoin des paquetages suivants installés:

ruby tesseract-ocr pdftk exactimage

ensuite rendu exécutable pdfocr.rb et exécuté:

./pdfocf.rb -i source.pdf -o output.pdf

Vous pouvez éventuellement utiliser le paramètre -l LANG . Dans ce cas, vous devrez installer tesseract-ocr-LANG package, où LANG correspond au code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.

    
réponse donnée user75505 16.11.2016 - 20:58
la source
2

La solution la plus simple et la plus simple consiste à utiliser pypdfocr , cela ne change pas le pdf. pypdfocr est un lien vers le module python ici.

pypdfocr your_document.pdf

A la fin, vous aurez un autre your_document_ocr.pdf comme vous le souhaitez avec du texte consultable. L'application ne modifie pas la qualité de l'image. Augmente un peu la taille du fichier en ajoutant le texte de superposition.

Je pense que la commande est assez simple, il n’a pas besoin d’interface graphique. Installer pypdfocr est peut-être un peu plus verbeux:

sudo apt install tesseract-ocr 
pip install pypdfocr 
    
réponse donnée Eduard Florinescu 03.02.2018 - 20:04
la source
0

gscan2pdf comprend 3 moteurs ocr différents. Vous pouvez numériser directement vers le programme ou importer votre pdf dans le programme. J'ai trouvé le moteur Tesseract très performant et très facile à utiliser

    
réponse donnée Vince West 20.11.2014 - 16:45
la source

Lire d'autres questions sur les étiquettes