La technologie OCR; ça vous parle ?

Technologies de contrôle documentaire pour le KYC et l’on-boarding. OCR, machine learning, IA.

Dans la lutte contre la fraude, on évoque constamment la technologie OCR, pour la détection et l’authentification de documents (pièces d’identité et tous les documents d’entrée en relation permettant d’identifier une personne physique ou morale : factures, justificatif de revenu, feuille de paie, Kbis etc.)  Mais que diriez-vous d’un petit rappel sur cette fameuse technologie OCR, question de se remettre les basiques en mémoire ?

Admettons que vous vouliez analyser une CNI Française pour en recueillir les informations clefs, et en valider l’authenticité. Deux solutions se présentent à vous : soit vous passez un temps incalculable à ressaisir manuellement ces informations (bande MRZ, nom et prénom, etc.), soit vous transformez cette CNI en format numérique (avec un scanner ou un appareil photo) et vous confiez son analyse complète et ultra-rapide à l’un des logiciels OCR de CTMS (optical character recognition, ou « ROC » en Français pour « reconnaissance optique de caractères »).

Que signifie OCR exactement ?

L’OCR est une technologie qui permet de convertir différents types de documents (documents papiers scannés, les fichiers PDF ou les photos numériques) en fichiers modifiables et interrogeables. Un scanner ne peut faire qu’une chose :  réaliser une image d’un document. Cette image n’est rien d’autre que des points noirs et blancs ou de couleur, mis en forme à la façon d’une grille (en langage technique : la « trame »). Pour lire et contrôler les informations contenues dans cette trame (issues de documents scannés, d’images numériques ou de PDF d’images seulement), il faut utiliser un OCR . Ce logiciel reconnaît les différentes informations extraites du document (dans notre exemple la CNI) et donne ainsi la possibilité de les exploiter dans le but d’en vérifier la véracité ou la concordance avec le contenu extrait dans un autre document (par exemple, comparaison des adresses apparaissant sur un justificatif de domicile et sur la CNI).

Quelle technologie se cache derrière l’OCR ?

Au départ, en règle générale, un OCR analyse la structure de l’image du document. Il le divise en éléments distincts reconnaissables (champs, textes, les tableaux, les images etc.)

Une fois que les caractères sont isolés, le logiciel les compare avec des modèles d’images grâce auxquels des hypothèses sont avancées sur ce que représente le caractère. Après revu toutes les hypothèses, l’OCR livre un texte jugé comme conforme à l’image reconnue.

En complément, certains OCR’s disposent de dictionnaires pour différentes langues. Grâce à ces dictionnaires, le logiciel améliore la précision de la reconnaissance des documents et facilite les vérifications ultérieures de résultats. Grâce aux technologies de prétraitement d’images et de reconnaissance sophistiquées, les OCR permettent également d’utiliser un appareil photo numérique, un smartphone et tablette en guise de scanner portable, pour « capturer » le document à analyser.

Des neurones et de l’IA ? quoi de neuf dans les technologies OCR ?

Les OCR sont des technologies très fines, incontournables pour identifier et authentifier les documents, et en constante évolution. Ils sont inclus dans tous les processus digitaux de KYC et de on-boarding, comme des outils de détection de la fraude. Ces logiciels sont également très souvent spécifiques, ou spécialisé dans tel ou tel document pour optimiser la reconnaissance des champs.

Les moteurs OCR de dernière génération bénéficient notamment des avancées offertes par l’IA (intelligence artificielle), et les réseaux de neurones.  ils sont désormais capable d’apprendre les spécificités des pièces soumises à leur analyse.  Depuis le début des années 2010, avec l’essor du Big Data et du traitement massif de données, les Data Scientists ont accès à des données et de la puissance de calcul nécessaires pour exécuter des réseaux de neurones complexes. En 2012, pendant un concours organisé par ImageNet, un réseau de neurones a, pour la première fois, surpassé l’homme dans la reconnaissance d’image. Cela explique pourquoi cette technologie d’IA est de nouveau au coeur des préoccupations. Aujourd’hui, les réseaux de neurones artificiels ne cessent de s’améliorer et d’évoluer de jour en jour.Par un algorithme, le réseau de neurones artificiels peut apprendre à partir de nouvelles données. L’OCR apprend par exemple à effectuer une tâche en analysant des exemples pour s’entraîner (« machine learning »)

Chez CTMS nous restons en veille permanent pour améliorer nos solutions et y inclure ces dernières technologies, lorsqu’elles ont un intérêt pour nos clients (quand elles permettent d’améliorer la reconnaissance des documents, l’authentification d’images et la lutte contre la fraude).

Comment optimiser les performances d’un OCR ?

Bien entendu, la puissance, la rapidité et la finesse de reconnaissance d’un logiciel OCR dépendent étroitement de 3 facteurs :

  • de la connaissance humaine et de l’expertise, en l’occurrence, de l’expertise anti fraude. Notre équipe de développement s’attache à paramétrer nos technologies IT pour répondre exactement aux besoins de nos clients (authentification, lecture du plus grand nombre de documents, reconnaissance des champs spécifiques, et détection de la fraude)
  • de la qualité des documents soumis à leur lecture : résolution suffisante, cadrage correct, image de taille suffisante
  • de leur bonne intégration dans les processus métiers : choix des documents métier adaptés, sélection des champs pertinents à analyser, croisement intéressant de données.

Rien ne remplace encore totalement le cerveau et l’œil humain, ni l’expertise de la lutte contre la fraude et des cas d’usages spécifiques C’est pour cela que nos OCR, comme l’ensemble de nos solutions digitales, s’enrichissent en permanence des retours de nos clients et de leurs besoins spécifiques. Quand la technologie avance, la fraude recule.

Laissez un commentaire



COORDONNÉES

Adresse : 1 - 3 Rue du Docteur Paul Diday - F 69003 LYON

 

Société : +33 (0)4 78 460 021

Fax +33 (0)4 72 301 721

Support : +33 (0)8 91 690 117*
*Service 0,50€/min + prix appel

INSCRIPTION À LA NEWSLETTER