Mostrando entradas con la etiqueta pdf. Mostrar todas las entradas
Mostrando entradas con la etiqueta pdf. Mostrar todas las entradas

Extraer tablas de datos en documentos PDF

Los archivos PDF se han vuelto muy populares a la hora de compartir documentos, son multiplataforma, su contenido no se desvirtualiza a la hora de ser visualizados, no es posible posible alterar su contenido y es muy complicado la extracción de datos.


Tabula es un programa multiplataforma que nos facilitará la extracción de tablas de archivos PDF y podremos extraerlas en formato texto o CSV (Valores Separados por Comas) y así exportarlo a una hoja de cálculo, para poder editarla.

Los datos podrán ser extraídos siempre y cuando sean texto incrustados. No es posible exportar tablas si han sido añadidas al PDF como imágenes.

Descargamos la versión correspondiente a nuestro sistema operativo. Al realizar la descarga del archivo comprimido nos encontraremos con un ejecutable para la plataforma JAVA.

Una vez ejecutado nos creará un servicio web al que accederemos mediante nuestro navegador a la dirección:

http://localhost:8080/


Añadiremos el archivo del que queremos extraer la tabla. Podremos seleccionarla o permitir que el propio programa localice aquellas tablas de las que podremos obtener sus datos


Previsualizaremos la tabla que hemos obtenido y nos permitirá exportarlo en el formato adecuado. Para importarlo o incorporarlo a, por ejemplo, una hoja de cálculo


Año,Marca,Modelo,Descripción,Precio

1997,Ford,E350,"ac, ABS, moon",3000.00

1999,Chevy,Venture,Extended Edition,4900.00

1999,Chevy,Venture,"Extended Edition, Very Large",5000.00

1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00

En mi caso he extraído la tabla contenida en el documento PDF y la exportado en un archivo CSV para importarlo a una hoja de cálculo mediante la suite Libre Office.



Calibre potente gestor de e-libros

Calibre es un potente gestor de e-libros y documentación que soporta muy diversos formatos.

Video manual Calibre

Video manual Calibre


Desde el formato creado por Adobe, extendido por toda la red, PDF (sigla del inglés Portable Document Format, «formato de documento portátil»), pasando por los formatos de Microsoft Word y los formatos populares de e-libros: MOBI, formato usado por Amazon y EPUB, usado por Google.
Calibre rastreará todos nuestro documentos creando una gran biblioteca, organizada.

Biblioteca Calibre

Si reconoce los libros que tenemos en nuestro dispositivo, puede añadir etiquetas o datos que faltan para ampliar la información sobre los libros y enriquecer nuestro gran catálogo.

También incluye un visor de libros soportando los principales formatos de e-reader's

La diversidad de formatos de e-libros dificulta en gran medida su adquisición en distintas plataformas. Libros adquiridos en Google Play no es posible ser leído en el Reader de Amazon y viceversa. Tendríamos que adquirir un reader neutral que soporte varios formatos, como por ejemplo Cervantes.

Con Calibre podemos convertir entre los distintos formatos para continuar leyendo nuestros libros aunque cambiemos el e-reader.

AZW, AZW3, AZW4, CBZ, CBR, CBC, CHM, DJVU, DOCX, EPUB, FB2, FBZ, HTML, HTMLZ, LIT, LRF, MOBI, ODT, PDF, PRC, PDB, PML, RB, RTF, SNB, TCR, TXT, TXTZ

Aunque nos aconsejan, en su manual de usuario, los mejores formatos para obtener el mejor resultado:

En orden de preferencia decreciente: LIT, MOBI, AZW, EPUB, AZW3, FB2, FBZ, DOCX, HTML, PRC, ODT, RTF, PDB, TXT, PDF

Es multi-plataforma y se encuentra traducido a diverso idiomas. Lo que le covierte en un programa prácticamente imprescindible para tener en nuestro equipo

Calibre pagina de descarga