Mostrando entradas con la etiqueta arch linux. Mostrar todas las entradas
Mostrando entradas con la etiqueta arch linux. Mostrar todas las entradas

GImageReader lector OCR simple y ligero

El reconocimiento óptico de caracteres expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos desde una imagen o por ejemplo de un PDF. En muchos casos tenemos una imagen o un PDF que contiene texto, bien obtenido desde una fotografía, o de un escaneo de un documento, y nuestra intención es obtener ese texto para poder ser usado en: un articulo, o en los apuntes de la escuela. Para evitar mecanografiar la fotografía, hay programas que son capaces de reconocer el texto que contiene el archivo gráfico, capturarlo y así poder ser exportado a otro documento, o permitir un copia-pega.


GImageReader es un lector OCR simple, ligero, gratuito y multi-plataforma para ordenador que nos facilitara la tarea de obtener texto de imágenes o de archivos PDF.

Las funciones que esta aplicación permite realizar son las siguientes:

  • Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, porta papeles y capturas de pantalla.
  • Procesar múltiples imágenes y documentos de una sola vez
  • Definir del área de reconocimiento manual o automática
  • Reconocer a texto sin formato o documentos hOCR
  • Mostrar el texto reconocido directamente junto a la imagen
  • Procesar el texto reconocido, incluida la revisión ortográfica
  • Importar documentos o imágenes cuyo texto se encuentre en diferentes idiomas
  • Generar documentos PDF a partir de documentos hOCR


- Generar documentos PDF desde el documento hOCR

  • Ubuntu

    Ubuntu: Disponible en ppa:sandromani/gimagereader
Se encuentra disponible en los repositorios de las principales distribuciones linux, y es posible instalarlo desde terminal:
  • Fedora:
yum install  tesseract tesseract-langpack-es gimagereader

  • Aprcity o derivados de Arch

yaourt -S gimagereader

  Si no tenemos tesseract instalado, toca ejecutar:

sudo pacman -S tesseract tesseract-data-eng tesseract-data-spa

    •  En Ubuntu y derivadas como Linux Mint

    sudo add-apt-repository ppa:sandromani/gimagereader

    sudo apt-get update

    sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng

     El funcionamiento, como ya he dicho, es muy simple. En este caso vamos a hacer una captura de pantalla que contiene texto e imágenes, y vamos a digitalizar el texto para exportarlo a un PDF.

    Pegar imagen que ha sido copiada y capturada en el navegador

    Añadimos un archivo, pegamos una imagen o realizamos una captura de pantalla
    Se nos mostrara el documento seleccionado
    Podemos ajustar de forma manual el área que queremos capturar o dejar que el programa haga su magia y reconozca los textos que contiene.
    Si fuera necesario podemos manipular la imagen para aumentar o disminuir el brillo, contraste, resolución de pantalla, o invertir los colores.
    Una vez se muestran las áreas que contienen el o los texto que queremos digitalizar, le indicaremos en que idioma se encuentra escrito, gImageReader reconocerá el texto y nos mostrará a continuación los textos que ha reconocido. 
    Podremos copiarlo o guardarlo en en un archivo de texto plano, que nos permitirá manipular más tarde.
    En este caso te he descrito los pasos para una imagen, pero el potencial de la aplicación va más allá por que es capaz de digitalizar documentos PDF que no sean editable y exportarlo a un PDF que puedas modificar.
    Vista rápida de la captura de texto de una imagen

    DistroSea, probar distribuciones Linux desde el navegador

    Las distribuciones Linux tienen un gran particularidad, no hay dos iguales. Al ser un sistema operativo libre de modificaciones, cada organización o fundación crea distros muy distintas entre ellas. El usuario final, si no es un gran experto, puede encuentrase con un gran numero de posibilidades que abruman y asustan. ¿Que distribución elegir para mi entorno de trabajo? En vez de realizar una instalación nueva en nuestro equipo buscando la que mejor se adapte a nuestro gustos, podemos utilizar una versión en linea.



    Captura de pantalla de DistroSea



    DistroSea que reúne 64 sistemas operativos diferentes bajados en Linux. Estas distribuciones se pueden probarse desde el navegador sin tener que realizar ninguna instalación en nuestro equipo o en un virtualizador. Su utilización es gratuita, no es necesario registrase, aunque se puede realizar donaciones. Las versiones que se virtualizan son LiveCD, al menos la que pude probar, Fedora.


    Página de comprobación de nuestra dirección ip

    Es posible que si el servidor se encuentra saturado, tengas que esperar un ratito en la cola

    Somos lo primeros en la cola y podemos probar la distro Fedora


    Una vez que la cola de ejecución se encuentre libre, se te abrirá a pantalla completa la ejecución online del sistema operativo que quieras testear. Recuerda que no es una versión completa, no tiene acceso a Internet y no podrás guardar sesión.


    Captura de pantalla de la virtualización online a pantalla completa de Fedora

    Captura de pantalla al lanzar la instalación del cd live virtualizado


    Si te has cansado de "jugar" con la prueba de la distro online solo tendrás que "apagar" el sistema operativo, virtualizado para regresar al menú principal

    Te dejo la lista de las distribuciones a la s que da soporte hasta ahora y los enlaces a los sitios oficiales, por si quieres más información

    Dentro de estas 64 distribuciones se encuentra diferentes versiones, y diversos escritorios. Unos desarrolladores dan más enfassis a la elegancia, otros a la funcionalidad y sencillez, otros a que su apariencia sea la más parecidas al escritorio de Windows o al escritorio de Mac, o que el entorno gráfico sea lo más liviano posible para que se pueda instalar en ordenadores de bajos recursos:

    Lynx navegador web para terminal

    Lynx aparte de ser un lince es un navegador web y cliente de gopher en modo texto, que podremos utilizar en nuestro terminal.

    Es muy común que para aliviar la carga de potencia sea necesario prescindir del entorno gráfico. Pero que a la vez tengamos que consultar manuales o artículos de ayuda accediendo a páginas web que se encuentran en internet. Para estos casos podremos utilizar Lynx, el entorno es muy simple y en modo texto, aunque si que podremos visualizar imágenes accediendo a los hiperenlaces.



    Para poder instalar Lynx:

    Ubuntu  

    sudo apt install lynx

     

    Debian

     sudo apt-get install lynx


     Arch Linux

     sudo pacman -S lince


     Fedora

    sudo dnf instalar lynx


     OpenSUSE

     sudo zypper instalar lynx


    MS-DOS

     http://ftp.gnu.org/pub/gnu/gzip/gzip-1.2.4.msdos.exe

    Una vez instalado el funcionamiento es muy simple, solo tendremos que invocar al navegador y la dirección que deseamos visitar. En este caso si queremos acceder a enfaseterminal.com utilizariamos secuencia de comando:

    lynx enfaseterminal.com


     Para navegar utilizaremos las teclas ⇑⇓ o la barra de espaciadora para ver la siguiente página

    Para visitar el hipervínculo utilizar

    Para volver hacia atrás 

    Para poder salir de la navegación utilizar Q

    Recuerda que es un navegador simple y no soporta los nuevos estándares multimedia

    El navegador que está utilizando no es compatible con las últimas tecnologías web (HTML5 y CSS3) necesarias para el funcionamiento correcto de este sitio web. Para conseguir una plena compatibilidad le recomendamos estos otros navegadores: Chrome, Firefox, Safari e Internet Explorer (en sus dos últimas versiones y con la vista de compatibilidad desactivada).

     

    En caso de necesitar ayuda utlizar el comando

    lynx