La définition simple
OCR signifie Optical Character Recognition — reconnaissance optique de caractères. C'est la technologie qui permet à un ordinateur de "lire" une image contenant du texte et d'en extraire un texte éditable et interrogeable.
En pratique : vous avez un scan d'une facture, une photo d'un document ou une image exportée d'un PDF non sélectionnable. L'OCR transforme ces pixels en texte que vous pouvez copier, modifier, indexer ou stocker dans une base de données.
Ce qui se passe à l'intérieur du moteur OCR
Le processus complet comporte plusieurs étapes distinctes.
1. Prétraitement de l'image
Avant même d'analyser les caractères, le moteur améliore l'image source : conversion en niveaux de gris, augmentation du contraste, correction de l'inclinaison (deskewing), réduction du bruit de fond. La qualité de cette étape détermine en grande partie la précision finale.
2. Segmentation
Le moteur identifie les zones de texte dans l'image, puis découpe ces zones en lignes, les lignes en mots, et les mots en caractères individuels. Cette étape est complexe : les documents mal alignés, les colonnes multiples et les tableaux posent des défis réels à la segmentation.
3. Reconnaissance des glyphes
Pour chaque caractère isolé, le moteur compare la forme du glyphe avec sa base de données de modèles de caractères. Les approches modernes utilisent des réseaux de neurones convolutifs entraînés sur des millions d'images de texte.
4. Correction contextuelle
Le résultat brut contient souvent des erreurs : un "l" reconnu comme "1", un "O" confondu avec "0". Les modèles de langage intégrés analysent les séquences de caractères reconnues pour corriger les erreurs improbables linguistiquement.
Tesseract : le moteur open source de référence
Tesseract est le moteur OCR open source le plus utilisé au monde. Développé à l'origine par HP dans les années 1980, maintenu par Google depuis 2006, il supporte aujourd'hui plus de 100 langues.
Zipero utilise Tesseract.js, le portage WebAssembly de Tesseract pour le navigateur. Cela signifie que la reconnaissance s'effectue entièrement sur votre appareil — aucun texte extrait ne transite par nos serveurs.
Ce qui détermine la précision
Résolution : 300 DPI est le minimum recommandé pour une précision élevée. En dessous de 150 DPI, les caractères sont trop flous pour être reconnus correctement.
Contraste : un texte noir sur fond blanc donne les meilleurs résultats. Un document jaunissant ou du texte coloré sur fond coloré dégradent significativement la précision.
Police : les polices serif standard et sans-serif sont reconnues avec une précision supérieure à 99 %. Les écritures manuscrites et les polices décoratives restent difficiles pour tous les moteurs OCR.
Inclinaison : un document scanné de travers peut réduire la précision de moitié. Tesseract intègre une correction automatique pour les angles modérés.
Cas d'usage courants
- Extraire le texte d'une facture scannée pour l'intégrer dans un logiciel de comptabilité
- Rendre un PDF non sélectionnable interrogeable et copiable
- Numériser des archives papier pour les indexer dans une base de données
- Extraire des données structurées de documents imprimés