💾 Archived View for moribundo.flounder.online › blog › 028_tesseract.gmi captured on 2023-09-28 at 15:54:17. Gemini links have been rewritten to link to archived content
⬅️ Previous capture (2023-03-20)
-=-=-=-=-=-=-
Veo que ha conseguido el microfilm, procesémoslo.
Tienes la imagen de una captura de pantalla de un texto y quieres transcribirla, pero no puedes copiar/pegar porque las imágenes no lo permiten. Por suerte tienes tesseract.
Tesseract es un programa OCR, un motor de reconocimiento óptico de caracteres, multiplataforma, de los más precisos que existe. Tengo que decir que he probado gocr, ocrad y ocrfeeder y ninguno ha estado a la altura de tesseract.
La instalación es sencilla y necesitas 2 paquetes:
pacman -S tesseract tesseract-data-spa
El último paquete es el del idioma español, si quieres transcribir en otro idioma, añádelo. Podemos saber qué lenguajes tenemos disponibles con el modificador --list-langs
tesseract --list-langs List of available languages in "/usr/share/tessdata/" (2): osd spa
El funcionamiento es muy sencillo, le decimos el nombre de la captura, el nombre del archivo de texto SIN extensión, y el idioma de transcripción:
tesseract captura.png textfile -l spa
Tesseract analiza la imagen, hace las modificaciones necesarios para hacerla más legible y genera la transcripcción. Aun así, si la captura es mala, podemos mejorarla en Gimp antes de pasarla a tesseract.
Si la captura no tiene mucha calidad, también podemos decirle a tesseract que utilice un esquema más detallado, añadiendo dpi:
tesseract captura.png textfile -l spa --dpi 150
Tags #tesseract #archlinux #ocr