jueves, 3 de septiembre de 2020

Power Query: Importar datos desde un pdf

En una reciente actualización de nuestro Excel (al menos para suscriptores de Microsoft 365) nos ofrece una nueva, e importante, posibilidad: Importar datos desde pdf empleando para ello Power Query (como no).
La herramienta es muy potente y sobre todo fiable... ya que no se trata de un simple conversor OCR.

Pongamos a prueba la funcionalidad.
Para ello disponemos de uu archivo pdf generado a partir de un .docx donde se han insertado dos tablas de datos:
1-una de ellas como tabla
2-la segunda como imagen!!

Power Query: Importar datos desde un pdf

Para comenzar el proceso de importación iremos a la ficha Datos > grupo Obtener y transformar > desplegable Obtener datos externos > Desde un archivo > Desde pdf
Power Query: Importar datos desde un pdf

Esto nos abrirá el asistente de importación donde indicaremos la ruta del documento pdf.
En el siguiente paso veremos la siguiente ventana:
Power Query: Importar datos desde un pdf

Al interesarnos ambas tablas tendremos cuidado de marcar la opción Seleccionar varios elementos; e igualmente buscaremos entre los distintos items desplegados las tablas deseadas.
Como punto curioso observamos que el asistente identifica en qué páginas del documento pdf se encuentran nuestras tablas.
Verificamos en la vista previa que los datos se visualizan correctamente y accederemos, presionando el botón de Transformar datos al editor de Power Query.
Power Query: Importar datos desde un pdf
Comprobamos que tenemos dos consultas creadas, una por cada tabla importada desde nuestro pdf.
Un pequeño inconveniente, no podemos tener todo en un solo paso :'( , es que no ha identificado correctamente los encabezados de las tablas. Cosa que lograremos rápidamente usando la primera fila como encabezado
Power Query: Importar datos desde un pdf
Esto inserta un paso en nuestra consulta... como era de esperar.

Repetimos el paso para la segunda consulta y estaremos listos para Cargar y cerrar, disponiendo de las tablas vinculadas a dicho documento pdf original!!.
Power Query: Importar datos desde un pdf


Alternativamente, en casos extremos, si el reconocimiento de las tablas de datos fallara, podremos trabajar directamente sobre las hojas del documento, dentro del Editor de Power Query, seleccionando directamente las hojas como elementos a importar.
Power Query: Importar datos desde un pdf
Obviamente el trabajo de Transformar datos en este supuesto se hace más laborioso...

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.