demande d'information ? Programme OCR pour linux !

On y discute de tout, ou presque...
Répondre
Avatar de l’utilisateur
userpen69
Membre
Membre
Messages : 16
Inscription : 20 nov. 2022, 09:28
Status : Hors-ligne

Bonjour,
Je me permets de vous demander, si quelqu'un connaîtrait un programme de reconnaissance de caractère que je pourrais utiliser pour récupérer un planning reçu chaque semaine par fichier PDF...
Je m'explique, ma femme reçoit chaque semaine son planning sur un simple fichier PDF et je dois rentrer manuellement le planning sur son agenda (type agenda Google)...
J'aimerais savoir s'il existe un logiciel ou programme simple, pour Linux, afin que je puisse extraire ces données en fichier type Excel, ou bien type extension Outlook, ?
Est-ce que ce type existe ?, j'ai bien chercher, mais je n'ai pas trouvé de moyen très efficace...
Merci de votre réponse... En espérant avoir posté ce post au bon endroit....
Excellente journée à vous... :good:
JP
Un novice passionné... Actuellement sur Kali Linux (base Debian)...
Avatar de l’utilisateur
dezix
Membre hyper actif
Membre hyper actif
Messages : 3546
Inscription : 04 juin 2016, 14:50
Status : Hors-ligne

Pour récupérer du texte d'un pdf
**Simple Utilisateur** -- Debian stable - XFCE
Avatar de l’utilisateur
userpen69
Membre
Membre
Messages : 16
Inscription : 20 nov. 2022, 09:28
Status : Hors-ligne

dezix a écrit : 03 déc. 2022, 09:11 Salut,

Pour récupérer du texte d'un pdf
Oui tout à fait, pas d'image ce sont des données uniquement textes et chiffres d'heures..
Un novice passionné... Actuellement sur Kali Linux (base Debian)...
Avatar de l’utilisateur
dezix
Membre hyper actif
Membre hyper actif
Messages : 3546
Inscription : 04 juin 2016, 14:50
Status : Hors-ligne

Salut,

Tu peux tester ocrfeeder

Ça fait longtemps que je n'ai plus utilisé cela,
il me semble que cela fonctionnait plutôt bien avec tesseract-ocr



Pour récupérer juste un peu de texte d'un pdf, il y a probablement plus pratique de l'OCR.

P.ex. qpdfview est une liseuse (graphique) qui permet de sélectionner/copier du texte dans un pdf.

Un PDF peut aussi être ouvert/édité avec libreoffice-draw


Dans synaptic ou https://packages.debian.org ou apt search/list recherche sur OCR tu va trouver d'autres outils ; idem pour PDF.

Il existe un convertisseur pdf vers texte => pdftotext fourni par poppler-utils

Regarde pdfgrep c'est une commande qui peut extraire les lignes de texte contenant un motif ;

Voilà toutes mes cartouches :smile:
ça me semble assez prometteur :wink:
**Simple Utilisateur** -- Debian stable - XFCE
Avatar de l’utilisateur
userpen69
Membre
Membre
Messages : 16
Inscription : 20 nov. 2022, 09:28
Status : Hors-ligne

dezix a écrit : 03 déc. 2022, 09:45 Salut,

Tu peux tester ocrfeeder

Ça fait longtemps que je n'ai plus utilisé cela,
il me semble que cela fonctionnait plutôt bien avec tesseract-ocr



Pour récupérer juste un peu de texte d'un pdf, il y a probablement plus pratique de l'OCR.

P.ex. qpdfview est une liseuse (graphique) qui permet de sélectionner/copier du texte dans un pdf.

Un PDF peut aussi être ouvert/édité avec libreoffice-draw


Dans synaptic ou https://packages.debian.org ou apt search/list recherche sur OCR tu va trouver d'autres outils ; idem pour PDF.

Il existe un convertisseur pdf vers texte => pdftotext fourni par poppler-utils

Regarde pdfgrep c'est une commande qui peut extraire les lignes de texte contenant un motif ;

Voilà toutes mes cartouches :smile:
ça me semble assez prometteur :wink:
Wow, merci Dezix, je vais tester un peu tout ça pour voir ce que ça donne, si je trouve ce qui fonctionne le mieux, je te tiendrais informé. Excellente journée; Merci
Un novice passionné... Actuellement sur Kali Linux (base Debian)...
Répondre