Aunque el reconocimiento óptico de caracteres (OCR) ha avanzado mucho en los últimos años, todavía no es ni será nunca perfecto. En particular, el índice de precisión de la mayoría de las soluciones de OCR no es capaz de alcanzar el 100%.
Para que la solución de OCR produzca resultados precisos, la calidad de la imagen de origen es una de las variables más importantes. El problema es que la calidad de la imagen inicial que se envía al motor de OCR a menudo no es óptima para que la precisión del OCR sea alta. Esto puede ser debido a las malas prácticas de captura de imágenes o a las condiciones, como una cámara temblorosa o una mala iluminación.
Con este blog, queremos ayudarte a evitar los errores más comunes en la captura de datos. En primer lugar, ofrecemos una breve recapitulación sobre cómo funciona el OCR, explicamos cómo se define la precisión del OCR y mostramos ejemplos de captura de imágenes incorrectas. A continuación, aclaramos cómo se puede mejorar la precisión del OCR.
Empecemos.
Resumen rápido: ¿Cómo funciona el OCR?
En los últimos años, cada vez más empresas utilizan software con tecnología OCR para automatizar los flujos de trabajo. Dado que el OCR tiene la capacidad de reconocer el texto, extraer la información y convertirla en datos que puedan ser leídos por una máquina, ya no es necesaria la extracción e introducción manual de datos.
Pero, ¿cómo funciona esto? El OCR es capaz de convertir una imagen en texto observando la forma de cada uno de los caracteres y convirtiéndolos en la letra más parecida. En el siguiente paso, se extrae la información y se almacena en la base de datos de la empresa. De este modo, los datos están listos para ser utilizados en los procesos empresariales que lo requieran.
En general, la conversión de imagen a texto hace que las empresas puedan acceder a la información y encontrarla más rápidamente, puesto que se puede realizar una búsqueda.
Lamentablemente, uno de los mayores retos para un motor de OCR es leer la información y extraer los datos con precisión. Para que el motor de OCR nos dé datos precisos, podemos ayudarle un poco.
Pero, ¿a qué nos referimos con datos precisos? Para que todos estemos en la misma página, vamos a definir lo que es la precisión del OCR.
Definición de precisión del OCR
Hay dos maneras de definir lo que es un OCR confiable:
- Precisión a nivel de caracteres
- Precisión a nivel de palabras
Precisión en el nivel de caracteres
La mayoría de las veces, la precisión de un motor de OCR se define por el nivel de los caracteres. La precisión de un OCR se mide en función de la frecuencia con la que un carácter se reconoce correctamente y la frecuencia con la que se reconoce incorrectamente.
En teoría, medir la precisión del OCR es bastante fácil. Basta con comparar el resultado de la ejecución del OCR con el texto original. Luego puedes contar cuántos caracteres acertó el OCR (precisión a nivel de caracteres) o cuántas palabras detectó el OCR correctamente (precisión a nivel de palabras). Tiene sentido, ¿verdad?
Precisión a nivel de palabras
Para mejorar la precisión a nivel de palabras, los motores de OCR hacen uso de conocimientos adicionales como un diccionario o una biblioteca de palabras. De este modo, una palabra incierta puede ser “fijada” a una palabra con la mayor similitud. Sin embargo, eso no significa que el OCR haya acertado con la palabra.
Por eso es tan importante proporcionarle al motor de OCR la imagen de mayor calidad posible. ¿Te estás preguntando si la calidad de tu imagen es lo suficientemente alta? Veamos algunos ejemplos que ilustran diferentes condiciones de captura de imágenes.
Ejemplos de baja precisión de OCR
Como hemos prometido, queremos ayudarte a evitar los errores más comunes en la captura de datos. Por eso hemos añadido los siguientes ejemplos:
Ejemplo 1
En un entorno rápido de trabajo, puede ser tentador tomar la foto de la etiqueta lo más rápido posible (por ejemplo, mientras subes las escaleras). Desgraciadamente, esto puede hacer que las imágenes sean de mala calidad, lo que hace que el OCR no pueda extraer los datos con precisión.
Como alternativa, se debe colocar el paquete en una superficie plana para tomar una imagen de calidad, lo que ayuda al motor de OCR a funcionar bien.
Ejemplo 2
Todos lo sabemos, una vez metido en un bolso o en un bolsillo, un recibo se dobla de formas extrañas. Si luego quieres hacerle una foto, es muy probable que el OCR no sea capaz de leer la información con precisión.
Por ello, es aconsejable enderezar el recibo lo mejor posible, colocarlo sobre una mesa y luego capturar la imagen. El resultado del OCR será mucho más preciso.
Con estos ejemplos en la mente, queremos discutir cuatro formas distintas con las que se puede mejorar la precisión del OCR.
Formas de mejorar la precisión del OCR
Tomemos como ejemplo una empresa de logística. A menudo, los empleados trabajan en un entorno muy acelerado en el que tomar imágenes de alta calidad es un reto. Los empleados no pueden concentrarse en la calidad de la imagen, ya que necesitan tomar una foto rápidamente.
Esto resulta en desafíos para que el OCR reconozca el texto y lea la información necesaria. La consecuencia es una lectura inexacta de los datos, lo que dificulta enormemente el uso de la información en otros procesos empresariales. En el peor de los casos, las empresas pueden perder mucho dinero como consecuencia de la inexactitud de los datos.
Pero hay diferentes maneras de mejorar la precisión del OCR sin mucho esfuerzo adicional para los empleados. Estas formas son:
- Mejora de la calidad de la imagen de origen
- Imágenes tomadas en un entorno “controlado”
- Comentarios al usuario en tiempo real
- Solución OCR que traza “cuadros delimitadores” para indicar el área de captura de datos
Veamos cada uno de los puntos individualmente.
1. Mejora de la calidad de la imagen de origen
Éste punto es bastante obvio. Si se mejora la calidad de la imagen original, la precisión del OCR aumentará considerablemente. Te puedes estar preguntando cómo saber si la calidad de la imagen es lo suficientemente alta.
Esto es bastante fácil de comprobar. Si el ojo humano es capaz de ver la imagen de origen con claridad, entonces es posible conseguir buenos resultados de OCR. Un buen indicador sería la altura de los caracteres. Es aconsejable no dejar que la altura de los caracteres caiga por debajo de los 20 píxeles, ya que de lo contrario se hace difícil reconocer las palabras y los caracteres.
Ten en cuenta que cuanto mayor sea la calidad de la imagen original, más fácil será distinguir los caracteres del fondo y, por tanto, mayor será la precisión.
2. Imágenes tomadas en un entorno “controlado”
Otra forma de mejorar la precisión del OCR es tomar la fotografía en un entorno “controlado”. Esto significa que es importante, por ejemplo, evitar condiciones demasiado oscuras (como una foto tomada en una habitación oscura o en el exterior cuando es de noche) y superficies irregulares. Además, un entorno muy desordenado y un color similar del fondo y de la imagen pueden dar lugar a problemas y a un bajo nivel de precisión.
Lo mejor es tomar una foto de un documento en una superficie plana, como un documento de entrega en el piso de un almacén.
3. Comentarios al usuario en tiempo real
Para garantizar que los empleados puedan tomar una foto de alta calidad y lograr así una alta precisión de OCR, se recomienda hacer uso de una solución basada en OCR que haga uso de la comunicación con el usuario en tiempo real.
Con la retroalimentación del usuario en tiempo real, los usuarios son notificados de inmediato cuando las condiciones de captura de imágenes no son lo suficientemente buenas y tienen la oportunidad de volver a capturar la imagen. Además, la información en tiempo real guía al usuario durante el proceso de captura de fotografías, procurando minimizar los errores.
Esta información para el usuario puede verse como: “Acércate al documento” “Demasiado movimiento” o “Condiciones demasiado oscuras”.
4. Solución OCR que traza “cuadros delimitadores” para indicar el área de captura de datos
Algunas soluciones de OCR, como el SDK de escaneo de documentos de Klippa, trazan “cuadros delimitadores” a los que debe ajustarse el documento. Esto asegura el ángulo de captura de la imagen y la distancia correcta.
Una vez tomada la imagen, el motor de OCR busca automáticamente los errores y corrige los problemas. Esto puede significar, por ejemplo, enderezar una imagen (la imagen se endereza y se corrigen los ángulos) o reducir el ruido de una imagen ajustando el valor de intensidad de los píxeles a los valores medios de los píxeles circundantes para mejorar la calidad de la imagen.
En general, cuando se extrae el texto de la imagen, con la ayuda del Procesamiento del Lenguaje Natural (PLN), se puede mejorar aún más la precisión de la extracción de datos. Esto se denomina post-procesamiento del resultado, en el que los datos extraídos se comparan con una biblioteca de caracteres. Se realizan verificaciones gramaticales y se realizan consideraciones contextuales para lograr el resultado más óptimo.
¿Te gustaría trabajar con una solución de OCR que te ofrezca todo lo mencionado? Pues con Klippa eso es posible. Déjanos convencerte de nuestra solución mostrándote lo que ofrecemos.
Klippa como una solución de OCR fiable y precisa
La solución de Klippa no sólo ofrece comentarios al usuario en tiempo real y “cuadros delimitadores” útiles que indican el tamaño de la imagen. Con nuestro SDK de cámara, los empleados pueden escanear imágenes y tomar fotos en cualquier lugar. En general, el uso de un SDK supone una gran ventaja ya que puede ser fácilmente integrado en tu propia aplicación.
Nuestro SDK de escaneo de documentos ofrece siete funciones que facilitan la precisión del OCR. Estas características son:
- Comentarios al usuario en tiempo real → Nuestro SDK ofrece comentarios en tiempo real para guiar a los usuarios a la hora de tomar una foto, por ejemplo, “Acércate al documento”, “Mantén la cámara quieta” y “Condiciones demasiado oscuras”.
- Captura automática → La captura automática hace que escanear documentos sea mucho más fácil. Los usuarios no tienen que presionar el botón para capturar una imagen. Simplemente pueden colocar el documento frente a la cámara y el SDK de Klippa reconocerá automáticamente el documento y tomará la foto por ti.
- Recorte → Nuestro SDK de escaneo reconocerá los bordes del documento y lo recortará automáticamente. Gracias a esta característica, el proceso de obtener una imagen clara y de alta calidad se vuelve mucho más conveniente. Además de eso, también es posible el recorte manual para recortar la imagen según tus preferencias.
- Ajustes de iluminación → Si un usuario se encuentra en un entorno oscuro y no tiene una buena fuente de luz cerca, los usuarios pueden encender el flash a través del control de flash. Esto te ayudará a obtener la imagen más clara posible.
- Mejora de la imagen → La calidad del documento se mejora gracias a las funciones de procesamiento de imágenes de nuestra cámara SDK para garantizar la mejor calidad de imagen posible.
- Escaneo de documentos individuales y múltiples → Es posible escanear rápidamente múltiples documentos y agruparlos para garantizar un proceso rápido y eficiente.
- El anonimato → Para respetar el reglamento GDPR, no se permite almacenar cierta información en las bases de datos. Por ello, ofrecemos la posibilidad de enmascarar los datos automáticamente.
En el vídeo puedes ver cómo se ven estas siete funciones en acción.
Además, para maximizar el éxito de tu empresa, somos capaces de desarrollar soluciones personalizadas. Como utilizamos Machine Learning y la IA, no dependemos de plantillas. Esto permite que el OCR produzca un resultado con mayor precisión. También significa que podemos entrenar a nuestro OCR para que lea cualquier documento que necesites.
Además, gracias al uso del Machine Learning y la Inteligencia Artificial (IA), podemos entrenar constantemente a nuestra solución, de modo que podemos adaptarnos a tus necesidades desde el principio.
Como puedes ver, con las funciones de mejora de imagen de Klippa, es fácil recibir un resultado de OCR fiable y preciso. ¿También quieres asegurarte de que tus empleados puedan trabajar con una solución de OCR fiable y precisa?
Déjanos mostrarte lo que podemos hacer por ti. Sólo tienes que reservar una demostración gratuita más abajo o ponerte en contacto con uno de nuestros expertos.