Reconnaissance de texte d'après des images

Démarré par chris08, Octobre 27, 2017, 11:30:21

« précédent - suivant »

chris08

J'ai un probleme dans mon boulot : je dois rentrer dans un tableur des données (chiffres uniquement) que je n'ai que sur version papier imprimée ou alors en Pdf.
J'ai essayé différents outils de reconnaissance de texte, en particulier Adobe acrobat professionnel, qui arrivent assez bien à trouver les données dans les fichieds Pdf, mais il y a un gros probleme: dans les tableaux que je lis, il y a de nombreuses cases vides et de ce fait le soft ne lit rien et quand la reconnaissance est finie, les cellules sont décalées

est ce qu'il y a un soft d'OCR qui permet, soit en OCR sur écran, soit dans un fichier Jpeg ou Pdf de faire la lecture dans des cases prédéterminées (alignées) et surtout de lire un espace ou une tabulation dans les cases vides?

Bob74

Bonjour,
Le "meilleur" que je connaisse (par réputation et non par utilisation) est PDFelement 6.
Il y a quelques années j'avais Omnipage (gratuit) et, comme j'avais des problèmes de reconnaissance de certains textes (relevés banques) j'avais acquis la version Pro qui était un peu mieux.
Toutefois, elle n'arrivait pas à déterminer certains chiffres dans les colonnes (Débit -  Crédit) "mal imprimés", tel les 1 (chiffre) écrits I (i majuscule  >:( ), ainsi que certains chiffres comme le 6 que l'on pouvait confondre avec un G. Le pire, les autres chiffres (hors colonnes) étaient écrits correctement.
Je passais donc des heures à rectifier.
J'avais demandé à la banque de modifier l'écriture...
...ce qui leur a demandé 8 à 10 mois.

Je pense qu'il y a maintenant une nette amélioration sur ce plan...
...à condition que l'imprimé de base soit correctement établi.

Joël Pierre

Citation de: chris08 le Octobre 27, 2017, 11:30:21J'ai un problème dans mon boulot : je dois rentrer dans un tableur des données (chiffres uniquement) que je n'ai que sur version papier imprimée ou alors en Pdf.

Ce n'est pas un problème, c'est précisément ce pourquoi, on est payé. Si un logiciel, ou une machine faisait le boulot, à quoi bon payer quelqu'un ?

Ibiscus

chris08 : as-tu essayé le logiciel Readiris ? Je pense que tu dois pouvoir l'essayer gratuitement, pour le libre revue, etc. il laisse tous la mise en page.
Je ne sais pas si cela marche pour une feuille de tableur.
http://www.irislink.com/FR/c983/IRIS---The-World-leader-in-OCR--PDF-and-Portable-scanner.aspx?
J'ai ce logiciel, si j'ai le temps je vais faire un essai. Donc, par exemple, j'affiche une feuille Excel à l'écran, je fais une copie d'écran JPEG, je la passe dans READIRIS ?
Je regarde si les cases vides sont toujours présentes, c'est ça ?

Ibiscus

Bon, j'ai essayé sans résultat concluant. À droite la copie d'écran jpeg, à gauche la restitution dans Word des données (avec des erreurs pour le signe €). C'est bien du texte et plus du bitmap, les cases vides sont bien respectées, sauf les 2 lignes vides qui ont donné une ligne plus large et un ligne vide. Cela doit pouvoir s'améliorer. Mais, c'est à ce moment que je n'ai pas su transférer les nombres dans un tableur Exel. J'ai essayé de convertir du "texte en tableau.." et aussi copier puis coller dans un tableau -en espérant passer du tableau Word au tableau Excel-, sans succès...
Il me semble que les traits de séparations sur le jpeg soient un gros problème !

Voilà je m'arrête là car la recherche prend trop de temps pour juste une aide cordiale...

Pour Joël Pierre : utiliser un outil plus adapté, ou developer un nouvel outil ou un nouveau processus pour exécuter une tache plus efficacement et plus rapidement, cela s'appelle faire des "gains de productivité" et c'est le moteur du progrès actuel. D'accord, poussé à l'extrême on utilise un robot avec quelqu'un qui entretien le robot, et encore ce peut aussi être fait par un robot  ;D ;D

egtegt²

Bonjour,
Personnellement, j'utilise Abby finereader, la reconnaissance est vraiment bonne. Par contre je n'ai jamais essayé avec des tableaux de ce genre.