Extraer tablas de datos en documentos PDF

Los archivos PDF se han vuelto muy populares a la hora de compartir documentos, son multiplataforma, su contenido no se desvirtualiza a la hora de ser visualizados, no es posible posible alterar su contenido y es muy complicado la extracción de datos.


Tabula es un programa multiplataforma que nos facilitará la extracción de tablas de archivos PDF y podremos extraerlas en formato texto o CSV (Valores Separados por Comas) y así exportarlo a una hoja de cálculo, para poder editarla.

Los datos podrán ser extraídos siempre y cuando sean texto incrustados. No es posible exportar tablas si han sido añadidas al PDF como imágenes.

Descargamos la versión correspondiente a nuestro sistema operativo. Al realizar la descarga del archivo comprimido nos encontraremos con un ejecutable para la plataforma JAVA.

Una vez ejecutado nos creará un servicio web al que accederemos mediante nuestro navegador a la dirección:

http://localhost:8080/


Añadiremos el archivo del que queremos extraer la tabla. Podremos seleccionarla o permitir que el propio programa localice aquellas tablas de las que podremos obtener sus datos


Previsualizaremos la tabla que hemos obtenido y nos permitirá exportarlo en el formato adecuado. Para importarlo o incorporarlo a, por ejemplo, una hoja de cálculo


Año,Marca,Modelo,Descripción,Precio

1997,Ford,E350,"ac, ABS, moon",3000.00

1999,Chevy,Venture,Extended Edition,4900.00

1999,Chevy,Venture,"Extended Edition, Very Large",5000.00

1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00

En mi caso he extraído la tabla contenida en el documento PDF y la exportado en un archivo CSV para importarlo a una hoja de cálculo mediante la suite Libre Office.



No hay comentarios: