
Tecnologías de reconocimiento óptico de caracteres (OCR) para la verificación de identidad extraer texto de imágenes de identificaciones emitidas por el gobierno y traducirlo en datos legibles por máquina.
Esta tecnología ahorra a las personas el tiempo y la molestia de ingresar datos manualmente desde documentos o imágenes impresos o no editables a un sistema digital, al tiempo que mejora de la precisión, mejora de la detección de fraudes, asegurando cumplimiento de normas a nivel mundial, y ayudar a las empresas a expandirse globalmente.
Tecnologías OCR de gama alta, como los que son construido a propósito, no sólo extraer y leer datos más rápido que los humanos, también hacen menos errores.
La tecnología OCR se remonta a principios del siglo XX. En 1914, el físico Emanuel Goldberg inventó una máquina que podía leer caracteres y convertirlos en código telegráfico. Se considera uno de los primeros ejemplos de tecnología OCR.
Posteriormente, Goldberg desarrolló lo que llamó una “Máquina estadística”, una máquina electromecánica para la búsqueda de archivos de microfilm utilizando un sistema de reconocimiento de código óptico. En 1931, se le concedió la patente estadounidense número 1.838.389 para la invención. IBM adquirió rápidamente los derechos sobre la patente.
Miles de tipos de documentos
En todo el mundo, miles de diferentes tipos de documentos de identidad están en uso, y todos tienen sus propios formatos, fuentes y características de seguridad. Para que las empresas puedan operar a nivel internacional, la tecnología OCR que utilizan tiene que ser capaz de clasificar con éxito la amplia gama de tipos de documentos que existen en las regiones y países en los que están activos, y extraer e interpretar con precisión los datos que cada uno contiene. Para ello, sus modelos de ML necesitan ser entrenados en grandes conjuntos de IDs, lo que no es el caso de las tecnologías OCR de propósito general de primer nivel del mercado.
Legibilidad del texto
Las tecnologías básicas de OCR pueden tener dificultades para reconocer fuentes inusuales. Los documentos que utilizan múltiples fuentes pueden ser particularmente difíciles de leer.
Limitaciones de idioma y caracteres especiales
Los documentos que contienen datos en diferentes idiomas requieren tecnologías OCR para cambiar sin problemas entre modelos de reconocimiento, lo que puede resultar un desafío.
Las escrituras no latinas, como el árabe o el chino, pueden ser más difíciles de reconocer debido a sus conjuntos de caracteres más grandes, formas intrincadas, variaciones contextuales —algunas letras cambian de forma dependiendo de su posición en una palabra— y diferencias sutiles entre personajes.
Si bien los alfabetos basados en latín suelen tener 26 caracteres, además de diacríticos adicionales, algunas lenguas no latinas tienen miles de caracteres. El chino tiene más de 50.000 caracteres, con alrededor de 8.000 de uso común. El japonés es un idioma particularmente complejo ya que combina tres escrituras: Kanji (caracteres chinos), Hiragana y Katakana. Incluso cuando se procesan idiomas basados en latín, las tecnologías básicas de OCR pueden malinterpretarse las marcas diacríticas sutiles.
Algunas escrituras no latinas se escriben de derecha a izquierda o verticalmente, lo que puede confundir las tecnologías básicas de OCR que han sido capacitadas para procesar información de izquierda a derecha.
Símbolos complicados
Símbolos de servicio especial —como los que identifican un cheque bancario estadounidense— pueden ser más difíciles de leer. Muchas tecnologías OCR de uso general no están capacitadas para leer símbolos especiales y por lo tanto ignorarlos, lo que significa que la información que contienen se pierde durante el proceso de extracción.
Diseños confusos y similitudes entre diferentes tipos de documentos
Diseños complejos con múltiples columnas, tablas o una combinación de texto e imágenes puede confundir las tecnologías básicas de OCR. Contraste insuficiente entre texto y fondo también puede afectar su desempeño. Obstrucciones como objetos superpuestos puede dar lugar a que los datos sean malinterpretados. Tipos de documentos similares, como un permiso de aprendizaje y un permiso de conducir, pueden confundir las tecnologías básicas de OCR.
Dependencia de desarrolladores de terceros
Las tecnologías OCR que dependen de desarrolladores de terceros pueden ser más lentas para adaptarse a los cambios, lo que afecta el performance. Estas tecnologías OCR podrían malinterpretar los datos de documentos gubernamentales porque han incorporado nuevos elementos con los que los modelos no están familiarizados o no son capaces de reconocer.
Condiciones ambientales desafiantes
Mala iluminación y sombras puede afectar la precisión.
Mala calidad de imagen
Imágenes borrosas y de baja calidad puede hacer que las tecnologías OCR malinterpreten los datos. Las manchas también pueden afectar la precisión.
Fraude de identidad
Las credenciales malinterpretadas o la falta de detección de documentos de identidad falsificados o manipulados pueden dar lugar a individuos no autorizados que obtienen acceso a sistemas, áreas y servicios, poniendo a las personas y organizaciones en riesgo de estar expuestas a actividad delictiva o conducta peligrosa.
Desinformación
La extracción de datos incorrecta o incompleta puede propagarse desinformación, propagar errores e interrumpir las operaciones del negocio. Las decisiones tomadas en respuesta al análisis de datos defectuosos pueden perjudicar a su organización.
incumplimientos normativos
Al extraer datos con fines de cumplimiento de normas, como KYC (Conozca a su Cliente) requerimientos bancarios: las imprecisiones pueden dar lugar a infracciones reglamentarias, litigios y sanciones penales.
Operaciones del negocio interrumpidas
Los datos mal interpretados pueden requerir una extensa revisión manual, que es lento y costoso. Errores en la extracción de datos ralentizar las operaciones del negocio.
Mala UX y daño a la reputación
Los errores de procesamiento de datos pueden dañar la reputación de su organización, provocar insatisfacción del usuario y pérdida de confianza, y atraer la atención negativa de los medios. Los errores como los rechazos falsos, cuando la tecnología OCR registra incorrectamente documentos válidos como no válidos, pueden frustrar a los usuarios. Si el proceso de OCR se ralentiza debido a condiciones complejas, idiomas y diseños, esto puede afectar la experiencia del usuario y aumentar las tasas de abandono.
Oportunidades perdidas para la expansión global
La incapacidad de reconocer idiomas no latinos y las actualizaciones de los documentos internacionales de identidad puede obstaculizar las oportunidades de expandirse globalmente y llegar a clientes o clientes internacionales.
Fugas de datos
Los errores en la clasificación de datos podrían exponer datos confidenciales.
La tecnología OCR patentada especialmente diseñada de Incode utiliza el aprendizaje automático para capturar, clasificar y procesar datos de más de 4900 documentos de identidad globales con una precisión casi perfecta.
Desde la captura de imágenes de alta calidad en condiciones subóptimas hasta el análisis de fuentes complejas, elementos y símbolos especiales, nuestras canalizaciones OCR específicas para documentos son robusto, escalable y en constante evolución.
Diseñado específicamente para IDs globales
A diferencia de las soluciones de propósito general, las tecnologías diseñadas específicamente están optimizadas para una tarea específica. En nuestro caso, la tecnología OCR patentada de Incode es diseñado específicamente para extraer y procesar datos de miles de diferentes tipos de documentos de identidad de todo el mundo, garantizando una precisión casi perfecta.
De hecho, Se ha demostrado que Incode supera a la solución OCR de uso general de Google en la extracción e interpretación de datos de campos clave en documentos de identidad como nombre, fecha de caducidad y número de documento.
Reconoce fuentes y elementos complejos
Nuestros potentes modelos de aprendizaje automático (ML) mejoran el rendimiento de OCR adaptándose a variaciones específicas del documento, incluidas fuentes complejas, diacríticos, símbolos y códigos de barras.
Construido para la escalabilidad global
Nuestra tecnología OCR patentada extrae texto latino y no latino de más de 4900 tipos de documentos completos de más de 200 países y territorios con una precisión inigualable. Nuestro algoritmo de 2 etapas para clasificar tipos de documentos de todo el mundo juega un papel clave para garantizar la extracción correcta de datos.
Asegura el cumplimiento de las normas
Al mejorar la precisión, ayudamos a garantizar que su organización cumpla con las regulaciones de la industria, lo que de otro modo podría resultar en sanciones o daños a la reputación.
Funciona a la velocidad del rayo
Gracias a nuestro potentes modelos de aprendizaje automático (ML) y adaptabilidad, nuestro SDK de captura supera a los humanos mediante la evaluación de múltiples frames en cuestión de segundos.
Retroalimentación en tiempo real y optimización de imágenes
Nuestro SDK de captura emplea una selección inteligente de fotogramas y proporciona retroalimentación en tiempo real para optimizar la calidad de la imagen. Esto asegura precisión e integridad, incluso en dispositivos de gama baja o en condiciones visuales deficientes. Nuestro sistema inteligente detectará automáticamente la orientación del ID durante la fase de captura.
Manténgase un paso adelante
Nuestras canalizaciones están diseñadas para diferentes tipos de documentos, lo que garantiza podemos adaptarnos rápidamente a nuevas estructuras de documentos, diseños y elementos de seguridad. Nuestro equipo interno de desarrolladores actúa rápidamente cuando se requieren actualizaciones y nuestro equipo interno de revisores mantiene nuestra base de datos constantemente actualizada.
Desde la captura hasta la finalización, esto es nuestra guía paso a paso sobre cómo la tecnología OCR patentada de Incode utiliza el aprendizaje automático para lograr una precisión casi perfecta durante la verificación de identidad.
Paso 1: Captura de ID VideoStream procesada
Durante la fase de captura, nuestro kit de desarrollo de software (SDK) procesa el flujo de video del documento entrante a través de la cámara del usuario. La orientación del documento se detecta automáticamente. Para ciertos tipos de documentos, los chips NFC se leen durante la fase de captura.
Estimación de calidad
Durante la fase de captura, nuestro modelo de aprendizaje automático (ML) evalúa cada fotograma del videostream y estima la calidad de la imagen en cuestión de milisegundos.
Retroalimentación en tiempo real
Si la calidad de la imagen se ve comprometida, posiblemente debido a condiciones de poca iluminación, el documento no es completamente visible, un fondo de bajo contraste o la imagen desenfocada proporcionamos retroalimentación en tiempo real para que el usuario pueda hacer ajustes antes de repetir el proceso —como encender una luz adicional, mantener el teléfono más alejado para capturar todo el documento o mantenerlo de manera más constante para asegurar que la imagen esté enfocada.
Control de calidad final
Si el modelo ML reconoce un marco en el que todo el documento es visible y reconocible, ese marco es entonces enviado a un servidor y verificado por un modelo de estimación de calidad de ML más grande. Si el fotograma pasa esta comprobación final, entonces el proceso de captura está completo.
Foto del usuario, si es necesario
Si el proceso no tiene éxito, de nuevo, posiblemente debido a condiciones de poca iluminación, que el documento no sea completamente visible, un fondo de bajo contraste o que la imagen esté desenfocada, se le pedirá al usuario que tome una foto en lugar de que nuestro SDK analice varios fotogramas de un flujo de video. Luego, su foto será enviada al modelo de estimación de calidad ML más grande para su aprobación final.
Paso 2: Clasificación de ID
Nuestro sistema de clasificación de dos etapas garantiza una identificación precisa de documentos.
Propuesta del candidato
Este es el proceso de generar un conjunto de posibles tipos de documentos (o “candidatos”).
En esta fase, generamos posibles coincidencias de tipo de documento aprovechando una red neuronal para que coincida con las características clave del documento. Así es como funciona el proceso:
1_ Extracción de características: El sistema extrae características clave del documento, como la ubicación del texto, las posiciones de campo, el diseño, los colores y otros atributos esenciales.
2_ Representación vectorial: Estas características se utilizan para generar una representación vectorial numérica del documento. Este vector captura los detalles esenciales del documento que pueden ayudar a identificar su tipo (por ejemplo, pasaporte, licencia de conducir, etc.).
3_ Emparejar: El sistema compara este vector con una base de datos de tipos de documentos conocidos. Calcula la similitud entre el vector del documento entrante y los de documentos previamente clasificados en la base de datos.
4_ Generación de Candidato: A partir de esta coincidencia de similitud, el sistema propone un conjunto de tipos de documentos candidatos que se asemejan mucho al documento que se está procesando. Estas son las “propuestas candidatas”.
Refinamiento
Este paso refina el tipo de documento mediante el análisis de detalles específicos, utilizando análisis basado en texto y otras características distintivas. Así es como funciona:
1_ Análisis textual: El sistema inspecciona el texto presente en el documento para identificar palabras, frases o símbolos específicos que diferencian documentos similares. Por ejemplo, puede verificar palabras clave como “permanente” frente a “temporal” en un permiso de residencia o términos específicos que distinguen un permiso de aprendizaje de una licencia de conducir.
2_ Comprobaciones específicas de campo: También analiza el formato y el contenido de ciertos campos (por ejemplo, número de documento, autoridad emisora, fecha de vencimiento) para asegurarse de que coincidan con el patrón esperado para un tipo de documento en particular.
3_ Selección de tipo de documento final: Después de analizar estos detalles textuales y específicos del formato, el sistema refina sus propuestas candidatas iniciales y selecciona el tipo de documento exacto.
Paso 3: ID OCR
A continuación, nuestro La tecnología de Reconocimiento Óptico de Caracteres (OCR) extrae e interpreta el texto que aparece en el documento. Esta fase se divide en dos etapas: detección y reconocimiento.
Detección
Durante la etapa de detección, nuestro algoritmo identifica las ubicaciones precisas de las palabras que aparecen en el documento. Toma en cuenta la información que ha recabado sobre el tipo de documento para reconocer palabras de significación. Este modelo de segmentación está entrenado para determinar límites de palabras, lo que le permite procesar con éxito textos más densos.
Reconocimiento
Durante la etapa de reconocimiento, nuestro algoritmo utiliza un modelo de lenguaje autorregresivo basado en un modelo transformador de visión para reconocer las palabras detectadas. Este modelo genera predicciones probabilísticas del contenido de las palabras. Los resultados de la etapa de clasificación de ID proporcionan al modelo de reconocimiento información sobre el formato de cada campo. El modelo de reconocimiento puede entonces operar dentro de cada formato para ofrecer una precisión casi perfecta para campos estructurados o campos con símbolos especiales.
Paso 4: Lector de código de barras
Los códigos de barras contienen información valiosa del usuario, pero pueden ser difíciles de leer para las tecnologías OCR. Para mitigar este problema, desarrollamos un modelo ML que restaura y mejora las imágenes de código de barras de mala calidad para que sean fáciles de leer.
Paso 5: Extracción y representación de entidades
Brindamos una precisión casi perfecta al identificar y extraer entidades clave como nombres, direcciones y números de documentos. Nuestro sistema procesa el texto extraído en datos estructurados, lo que explica las diferencias en los formatos de fecha, los cambios en las posiciones de campo y las reglas específicas del documento (como pegatinas de direcciones frontales y contrarias).
Nuestros modelos ML manejan todo el trabajo pesado, haciendo que cada interacción con el usuario se sienta sin esfuerzo. Al ofrecer resultados casi perfectos, incluso en condiciones subóptimas, ahorramos tiempo a nuestros usuarios y minimizamos la necesidad de intervención manual.
Características tales como selección inteligente de fotogramas, detección automática de orientación de ID y retroalimentación en tiempo real ayudar a garantizar que nuestro proceso sea sencillo y fácil de navegar. Al simplificar y acelerar el proceso, aumentamos las tasas de finalización e impulsamos las conversiones.