Archives de catégorie : Bureautique

Un système OCR performant en ligne.

Petit préambule sur le système OCR.

Principe de l'OCR
Principe de l’OCR

Le système OCR* permet de scanner un texte ou un document qui pourra ensuite être édité sur ordinateur ou smartphone. Il permet par exemple de scanner des notes de frais et de les télécharger sur ton compte à l’aide d’une application pour smartphone.

*OCR ou bien ROC (Optical Character Recognition en anglais ou Reconnaissance Optique de Caractères en français).

Le système OCR est capable de reconnaître automatiquement des textes imprimés, et à les retranscrire en fichier électronique. En scannant un document, l’OCR est donc capable de « lire » son contenu et de reconnaître les différents types de polices et caractères. Certains systèmes OCR peuvent même identifier une écriture manuscrite.

Diverses possibilités d'OCR.
Diverses possibilités d’OCR.

Le texte qui est lu sur un document scanné, peut ensuite être utilisé pour remplir automatiquement un formulaire ou pour l’enregistrer dans un logiciel de traitement de texte, etc. Un autre exemple, celui des centres de tri de courrier qui utilise souvent le système OCR pour gérer et trier le courrier. Cela permet d’obtenir des classements rapides et d’améliorer les délais de livraison.

L’OCR fonctionne comment?

Le système OCR utilise les plus récentes technologies pour collecter les informations d’un document (texte, photographie) à partir d’un scan et le convertir ensuite en un fichier texte exploitable.

Pour cela, le système OCR compare les couleurs noires et blanches d’un document pour déterminer chaque code alphanumérique. Le système reconnaît ensuite chaque caractère, et le convertit en texte selon le code ASCII*. Cela permet ensuite de l’éditer et de copier le texte aussi rapidement que dans un traitement de texte.

*ASCII (Code américain normalisé pour l’échange d’information).

Image to Text, c’est quoi ?

J’ai choisi de vous présenter un site parmi tant d’autres qui pratique la reconnaissance optique de caractères (OCR) gratuitement et celà dans une bonne centaine de langues. Il a pour nom Image to Text.

Ce service en ligne fonctionne sur le programme open source Tesseract-OCR. Son utilisation est très simple : il suffit de glisser-déposer une image dans la case prévue à cet effet et de laisser faire l’application. Un grand nombre de formats sont acceptés tel que : JPG, JPEG, BMP, PNG, TIFF, etc.

Page d'accueil
Vue partielle de la page d’accueil du logiciel en ligne

Quelques secondes après, le résultat s’affichera pour vérification de votre part. Si vous êtes satisfait du résultat, cliquer sur « Copier ». Le texte récupéré est mis instantanément dans le presse-papier pour être collé dans l’application de votre choix.

Page d'accueil du site
Récupération du texte

J’ai remarqué que parfois « Image To Text » rencontre quelques problèmes avec certains caractères et accents, ainsi qu’avec des sauts de lignes… (en fait ces erreurs sont minimes et facile à corriger). Si vous n’avez pas d’outil OCR sur votre machine ce site peut vous rendre service.

Un test plus difficile :

Pour essayer de connaître les limites de ce système, j’ai capturé sur mon écran une page de bande dessinée comportant six dessins en noir est blanc, avec des bulles de texte en anglais.

Bande dessinée
Bande dessinée avec texte en anglais

Résultat du test : Le texte a été restitué en 4 secondes dans son intégralité. La langue anglaise a bien été reconnue et les textes bien récupérés. Des espaces sont alors aménagés pour bien séparer les textes des diverses bulles.

Récupération intégrale du texte de la bande dessinée ci-dessous,

THANKSGIVING IS SUST AROUND

THE CORNER, AND I’M REALLY.

LOOKING FORWARD To IT.

YOU KNOW WHAT T

LIKE BEST ABOUT

THANKSGIVING?

WHAT ,

I GET THE DAY!

I DON’T SHAVE, AND I PUT

ON GRUBBY OLD CLOTHES

I LAY IN SOME BEER,

MAKE POPCORN AND SEND

OUT FOR PIZZA,

I THEN 1 JUST SIT IN

FRONT OF THE TUBE AND

WATCH EVERY FOOTBALL

GAME THAT’S TELEVISED.

I WONDER HOW NORMAN.

ROCKWELL WOULD. HAVE

HANDLED THAT?

J’ai pratiqué plusieurs test avec divers documents plus ou moins chargés en couleurs et comportant diverses polices. Les résultats sont très variables. Certains caractères sont manquants ou remplacés par d’autres, mais le résultat reste globalement positif.

Sachez enfin que  » Image to Text » propose également des extensions pour certains navigateurs :
Chrome
Firefox
Edge

Site officiel en ligne : Image to Text

https://imagetotext.io/