Athento permite extraer el texto de documentos con formatos estándares. La funcionalidad de OCR permite leer el texto de una imagen (PDF, JPG, PNG, TIFF, etc.) y convertirlo a texto que puede ser leído y procesado por ordenadores.
Athento utiliza su propio motor OCR, pero es posible usar otros motores OCR, OMR o ICR ya que el diseño de operaciones permite desacoplar de forma completa el motor de OCR o incluso usar varios al tiempo. Entre los distintos motores se encuentra Abby OCR SDK, OpenText RecoStar.
Athento permite extraer el contenido textual de un documento o contenido digital en los siguientes formatos:
Imágenes |
Indexables |
Audios |
JPG (.jpg y .jpeg) |
Microsoft Word (.doc y .docx) |
Mp3- only mono (.mp3) |
PNG (.png) |
Microsoft Excel (.xls y .xlsx) |
OGG (.ogg) |
TIFF (.tiff) |
Microsoft Power Point (.pptx) |
WAV (.wav) |
PDF(.pdf) |
HTML (.html y htm) |
|
GIF (.gif) |
TXT (.txt) |
|
PostScript (.ps) |
Emails (.eml) |
|
|
Ebooks (.epub) |
|
|
JSON (.json) |
|
|
Open Office (.odt) |
|
|
|
|
Athento extrae el OCR de cada página del documento como se aprecia en la imagen siguiente:
El OCR completo del documento puede ser utilizado por ejemplo para enviar a un sistema ECM como Alfresco, Documentum o Nuxeo y que estos puedan indexar para búsqueda los contenidos de los documentos.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.