Mostrando entradas con la etiqueta fedora. Mostrar todas las entradas
Mostrando entradas con la etiqueta fedora. Mostrar todas las entradas

GImageReader lector OCR simple y ligero

El reconocimiento óptico de caracteres expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos desde una imagen o por ejemplo de un PDF. En muchos casos tenemos una imagen o un PDF que contiene texto, bien obtenido desde una fotografía, o de un escaneo de un documento, y nuestra intención es obtener ese texto para poder ser usado en: un articulo, o en los apuntes de la escuela. Para evitar mecanografiar la fotografía, hay programas que son capaces de reconocer el texto que contiene el archivo gráfico, capturarlo y así poder ser exportado a otro documento, o permitir un copia-pega.


GImageReader es un lector OCR simple, ligero, gratuito y multi-plataforma para ordenador que nos facilitara la tarea de obtener texto de imágenes o de archivos PDF.

Las funciones que esta aplicación permite realizar son las siguientes:

  • Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, porta papeles y capturas de pantalla.
  • Procesar múltiples imágenes y documentos de una sola vez
  • Definir del área de reconocimiento manual o automática
  • Reconocer a texto sin formato o documentos hOCR
  • Mostrar el texto reconocido directamente junto a la imagen
  • Procesar el texto reconocido, incluida la revisión ortográfica
  • Importar documentos o imágenes cuyo texto se encuentre en diferentes idiomas
  • Generar documentos PDF a partir de documentos hOCR


- Generar documentos PDF desde el documento hOCR

  • Ubuntu

    Ubuntu: Disponible en ppa:sandromani/gimagereader
Se encuentra disponible en los repositorios de las principales distribuciones linux, y es posible instalarlo desde terminal:
  • Fedora:
yum install  tesseract tesseract-langpack-es gimagereader

  • Aprcity o derivados de Arch

yaourt -S gimagereader

  Si no tenemos tesseract instalado, toca ejecutar:

sudo pacman -S tesseract tesseract-data-eng tesseract-data-spa

    •  En Ubuntu y derivadas como Linux Mint

    sudo add-apt-repository ppa:sandromani/gimagereader

    sudo apt-get update

    sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng

     El funcionamiento, como ya he dicho, es muy simple. En este caso vamos a hacer una captura de pantalla que contiene texto e imágenes, y vamos a digitalizar el texto para exportarlo a un PDF.

    Pegar imagen que ha sido copiada y capturada en el navegador

    Añadimos un archivo, pegamos una imagen o realizamos una captura de pantalla
    Se nos mostrara el documento seleccionado
    Podemos ajustar de forma manual el área que queremos capturar o dejar que el programa haga su magia y reconozca los textos que contiene.
    Si fuera necesario podemos manipular la imagen para aumentar o disminuir el brillo, contraste, resolución de pantalla, o invertir los colores.
    Una vez se muestran las áreas que contienen el o los texto que queremos digitalizar, le indicaremos en que idioma se encuentra escrito, gImageReader reconocerá el texto y nos mostrará a continuación los textos que ha reconocido. 
    Podremos copiarlo o guardarlo en en un archivo de texto plano, que nos permitirá manipular más tarde.
    En este caso te he descrito los pasos para una imagen, pero el potencial de la aplicación va más allá por que es capaz de digitalizar documentos PDF que no sean editable y exportarlo a un PDF que puedas modificar.
    Vista rápida de la captura de texto de una imagen

    Instalar varios paquetes DEB o RPM a la vez

    Se puede dar el caso, como ocurre si quieres instalar o actualizar LibreOffice, que te encuentres que no viene en un solo paquete, sino 42 elementos a instalar; y todo esto sin contar con las traducciones al castellano.


    Paquetes Libreoffice

    En primer lugar nos situaremos en la carpeta donde se encuentran alojados los paquetes a instalar. Bien directamente desde la consola de comandos, o desde el explorador de archivos, pulsando el botón derecho y Abrir en un Terminal


    Abrir en un Terminal

    Dependiendo del sistema operativo y que tipo de paquetes maneje utilizaremos el comando que corresponda

    • Para sistemas o basados en Debian: sudo dpkg -i *.deb
    • Para sistemas o basados en Fedora: su -c 'dnf install *.rpm'
    • Para sistemas o basados en Mandriva: sudo urpmi *.rpm
    • Para otros sistemas que utilicen los paquete RPM (openSUSE, etc.): rpm -Uvh *.rpm

    Lynx navegador web para terminal

    Lynx aparte de ser un lince es un navegador web y cliente de gopher en modo texto, que podremos utilizar en nuestro terminal.

    Es muy común que para aliviar la carga de potencia sea necesario prescindir del entorno gráfico. Pero que a la vez tengamos que consultar manuales o artículos de ayuda accediendo a páginas web que se encuentran en internet. Para estos casos podremos utilizar Lynx, el entorno es muy simple y en modo texto, aunque si que podremos visualizar imágenes accediendo a los hiperenlaces.



    Para poder instalar Lynx:

    Ubuntu  

    sudo apt install lynx

     

    Debian

     sudo apt-get install lynx


     Arch Linux

     sudo pacman -S lince


     Fedora

    sudo dnf instalar lynx


     OpenSUSE

     sudo zypper instalar lynx


    MS-DOS

     http://ftp.gnu.org/pub/gnu/gzip/gzip-1.2.4.msdos.exe

    Una vez instalado el funcionamiento es muy simple, solo tendremos que invocar al navegador y la dirección que deseamos visitar. En este caso si queremos acceder a enfaseterminal.com utilizariamos secuencia de comando:

    lynx enfaseterminal.com


     Para navegar utilizaremos las teclas ⇑⇓ o la barra de espaciadora para ver la siguiente página

    Para visitar el hipervínculo utilizar

    Para volver hacia atrás 

    Para poder salir de la navegación utilizar Q

    Recuerda que es un navegador simple y no soporta los nuevos estándares multimedia

    El navegador que está utilizando no es compatible con las últimas tecnologías web (HTML5 y CSS3) necesarias para el funcionamiento correcto de este sitio web. Para conseguir una plena compatibilidad le recomendamos estos otros navegadores: Chrome, Firefox, Safari e Internet Explorer (en sus dos últimas versiones y con la vista de compatibilidad desactivada).

     

    En caso de necesitar ayuda utlizar el comando

    lynx