OCR por Lote

El Reconocimiento de Caracteres Ópticos (OCR) es el uso de algoritmos computacionales para detectar información de texto en imágenes. Si las herramientas OCR están activadas en su portal Symbiota, puede utilizar OCR para tratar de analizar información textual en imágenes, e.g., etiquetas de especímenes, e ingresar datos en los campos apropiados a partir de esa información. Las instrucciones para utilizar procesos OCR por lote, son descritos a continuación. Para instrucciones de cómo usar OCR en el editor de Occurrencias, vea la página de OCR en la Guía para Editores.

Generar OCR por Lote para Registros en un Portal

Para ejecutar un análisis OCR en muchas imágenes de especímenes a la vez

  1. Navegue al Panel de Control de Administración (Mi Perfil > Manejo de Occurrencias > nombre de la colección).
  2. Hacer click en la Caja de Herramientas de Procesamiento.
  3. Si el OCR está disponible en su portal, haga click en la pestaña de OCR.
  4. Desde aquí, puede ver cuántos especímenes tienen guardado algún resultado OCR, y puede ejecutar un análisis OCR en un número designado de especímenes utilizando la casilla Analizar Imágenes por lote con OCR, usando el Motor Tesseract OCR. Indicar el estado de procesamiento de los registros para los cuales desea ejecutar el análisis OCR en el campo “estado de procesamiento”, e indique cuántos de estos registros le gustaría analizar a la vez, utilizando el campo “Número de registros a procesar”.

Batch OCR Tool

Un video tutorial de este proceso puede ser encontrado aquí:

Cargar OCR Pre-Generados

Algunos portales también incluyen una interfaz en la cual puede cargar archivos de texto OCR generados fuera del ambiente del portal. Por ejemplo, ABBYY FineReader tiene la habilidad de analizar especímenes por lote con OCR y presentar resultados como archivos de texto separados (.txt) nombrados como la imagen de origen. Los archivos de texto OCR están vinculados a los registros de especímenes por medio de los números de catálogo extraídos del nombre del archivo y comparándolo con el nombre de los archivos OCR y de la imagen.

Esta herramienta también puede ser encontrada en la pestaña OCR de la Caja de Herramientas de Procesamiento.

Para cargar un archivo, asegúrese que su colección y archivos cumplen con los siguientes requisitos:

  • Los archivos OCR deben estar en formato de texto con una extensión .txt. Cuando use ABBYY, utilice la configuración: “Create a separate document for each file”, “Save as Text (*.txt)”, and “Name as source file”
  • Comprima múltiples archivos OCR en una sola carpeta zip para cargarlos en el portal
  • Los archivos deben ser nombrados utilizando el Número de Catálogo. Las expresiones regulares de abajo deben ser utilizadas para extraer los números de catálogo del nombre del archivo.
  • Ya que el texto OCR necesita ser vinculado a la imagen de origen, las imágenes deben haber sido cargadas previamente en el portal
  • Si existe más de una imagen vinculada al espécimen, el nombre completo del archivo será usado para determinar cuál imagen será vinculada al OCR

Batch OCR Upload

Cite esta página:

Katie Pearson, trad: Samanta Orellana. OCR por Lote. In: Symbiota Support Hub (2021). Symbiota Documentation. https://biokic.github.io/symbiota-docs/es/coll_manager/edit/ocr/. Creado el 03 Dec 2021.