WatchOCR: Escanea tus documentos con un OCR OpenSource
Las aplicaciones Open Source están presentes en todos los ámbitos, aunque en algunas áreas el soporte y prestaciones son inferiores a las que podemos encontrar en el mundo Windows. Es el caso del software de reconocimiento de textos, OCR, que permite escanear un documento de texto y trasladar ese texto a un fichero plano que podamos tratar como un documento de texto convencional.
Un usuario de Slashdot ha contado su experiencia con soluciones Open Source como CuneiForm y ExactImage, que teóricamente son capaces de tomar un documento escaneado y realizar el reconocimiento óptico de caracteres, pero el proceso es complejo y engorroso.
Sin embargo hay una solución al problema: se trata de WatchOCR, una distribución en formato LiveCD que crea un servidor en neustra red que proporciona un servicio OCR utilizando ciertas carpetas que se vigilan constantemente. Cuando se escanea un nuevo documento pasa a esos directorios o carpetas, y WatchOCR coge esos ficheros, los trata con sus algoritmos OCR y los divide en otra carpeta.
A partir de ahí WatchOCR usa precisamente CuneiForm y ExactImage para completar el proceso sin que el usuario tenga que escanear nada, e incluso se puede controlar todo de forma remota a través de una interfaz web. Una aplicación práctica: escanear documentos para obtener PDFs completamente legibles y en los que además sea posible realizar búsquedas de texto.
En los comentarios de Slashdot apuntan una pequeña desventaja: no hay código fuente para el proyecto, que está licenciado con la GNU GPL pero que curiosamente no da demasiados datos sobre ese código o cómo funciona todo el proceso. En cualquier caso, puede que WatchOCR os solucione vuestros problemas.
Related posts:
- LyX 2.0: el más potente procesador de documentos se renueva
- FF-Multi-Converter, convierte imágenes, audio, vídeo y documentos
- Procesadores de documentos: más allá del texto
- Munich se inunda de documentos ODF
- Gummi, un editor LaTeX sencillo












La verdad es que los actuales proyectos de reconocimiento de texto OCR para Linux dejan mucho que desear. Los que he probado no tienen comparación con por ejemplo los de Acrobat.
Había leído que el proyecto “ocropus” (apoyado por Google) podía ser mejor a los que ya existen. Se puede instalar desde repositorios en Ubuntu pero no se si existe algún programa con entorno gráfico que incorpore la posibilidad de usar ocropus para el reconocimiento de texto OCR.
Como mi tocayo dijo, dejan mucho que desear, al punto que es imposible utilizarlos de verdad, o sea transformar digamos un pdf de 400 o más páginas de pura imagen a texto, cosa que tengo que hacer constantemente.