OCR : comment numériser des documents papier en texte éditable

Transformer une photo de document en texte copiable en quelques secondes. Guide pratique pour de bons résultats.

Prendre une bonne photo pour l'OCR

La qualité du résultat OCR dépend à 70 % de la qualité de l'image d'entrée. Un algorithme OCR, aussi sophistiqué soit-il, ne peut pas reconstruire des informations que la photo ne contient pas. Prendre deux minutes pour améliorer la photo vaut mieux que de passer dix minutes à corriger des erreurs de reconnaissance.

L'éclairage est le facteur le plus important. La lumière naturelle diffuse — près d'une fenêtre par temps nuageux — est idéale. Elle éclaire uniformément sans créer d'ombre portée. Évitez le flash direct du smartphone : il crée un reflet brillant au centre du document qui efface localement le texte. Évitez aussi les lumières artificielles directionnelles (lampe de bureau à angle oblique) qui projettent des ombres sur les caractères.

L'angle de prise de vue doit être strictement perpendiculaire au document. Tenir le téléphone à 45° crée une distorsion de perspective (trapèze) que l'OCR gère mal. Posez le document à plat sur une surface horizontale et tenez le téléphone directement au-dessus. La plupart des applications de scan modernes corrigent automatiquement les légères déformations de perspective, mais mieux vaut partir d'une image droite.

La résolution minimum recommandée est de 1 500 pixels de large pour un document A4. En pratique, un smartphone récent photographié à distance raisonnable (30-50 cm du document) produit 3 000 à 4 000 pixels de large — largement suffisant. Si vous êtes en dessous de 1 000 pixels de large, la précision de l'OCR chute significativement.

Ce que l'OCR reconnaît bien et ce qu'il reconnaît mal

Le texte imprimé moderne (imprimante laser ou jet d'encre sur papier blanc, police sans serif ou serif standard) donne des taux de précision supérieurs à 99 % avec les moteurs OCR modernes. Pratiquement chaque caractère est correctement identifié. Les documents générés par ordinateur — factures, contrats, formulaires — entrent dans cette catégorie.

Le texte dactylographié à la machine à écrire — avec ses caractères légèrement inégaux et son encre parfois irrégulière — donne de très bons résultats, généralement au-dessus de 97 %. Les vieux documents administratifs, souvent en format texte pur, sont très bien reconnus.

L'écriture manuscrite en capitales (lettres d'imprimerie) donne des résultats acceptables — 85 à 92 % de précision selon la clarté de l'écriture. L'OCR est entraîné sur des milliers d'exemples d'écritures variées pour ce type de texte. L'écriture cursive, en revanche, est un domaine où la précision chute à 60-75 % selon les algorithmes — il faudra relire et corriger davantage.

Les tableaux complexes, les formules mathématiques, et les documents avec des mises en page multi-colonnes très élaborées restent des défis pour l'OCR. La structure est souvent partiellement perdue ou mal interprétée. Pour ces documents, l'OCR extrait bien le texte mais la reconstruction du tableau ou des équations demande un travail de reformatage manuel.

Améliorer la précision sur un document difficile

Le redressement de l'image (deskewing) consiste à corriger l'inclinaison d'un document scanné ou photographié de biais. Un texte incliné de 5° réduit la précision de l'OCR de manière mesurable, car les algorithmes de segmentation des lignes travaillent mieux sur du texte horizontal. La plupart des outils OCR appliquent ce redressement automatiquement, mais si le vôtre ne le fait pas, un recadrage et redressement manuel dans un éditeur photo prend 30 secondes.

Augmenter le contraste est efficace pour les documents anciens, les photocopies fanées, et les impressions jet d'encre sur papier légèrement absorbant. L'objectif est d'obtenir du texte aussi noir que possible sur un fond aussi blanc que possible. Dans votre éditeur photo, augmentez les noirs et diminuez les blancs jusqu'à ce que les caractères soient nets et le fond pur. Sur les documents très jaunes (papier vieilli), une conversion en niveaux de gris suivie d'un ajustement des courbes donne souvent d'excellents résultats.

Recadrer pour supprimer les marges parasites et les éléments hors document (table, doigts qui tiennent la page, bord du bureau) aide l'OCR à se concentrer sur le contenu utile. Certains algorithmes sont perturbés par des éléments qui ressemblent à du texte en dehors des zones de contenu — découpez-les avant de soumettre l'image.

Après l'OCR : vérifier et corriger

Même avec une bonne image et un moteur OCR de qualité, une relecture reste nécessaire pour les documents importants. Certaines confusions de caractères sont systématiques et indépendantes de la qualité de l'image : le chiffre zéro (0) confondu avec la lettre O, le chiffre un (1) confondu avec la lettre l minuscule ou le I majuscule, la combinaison rn confondue avec m (par exemple "rnaison" au lieu de "maison").

Les nombres et les chiffres dans les textes sont des zones de risque particulier. Une erreur sur un montant financier, un numéro de SIRET, ou une date peut avoir des conséquences sérieuses. Relisez systématiquement toutes les séquences numériques après une reconnaissance OCR, même si le texte vous semble parfait.

La stratégie de vérification efficace : relisez la première et la dernière ligne de chaque paragraphe. Ce sont les lignes les plus exposées aux erreurs liées à la mise en page (marges, blancs entre paragraphes) et les plus susceptibles de contenir des coupures de mots ou des artefacts. Une relecture complète ligne par ligne est nécessaire pour les documents à valeur légale ou financière.