En una reciente actualización de Microsoft Excel se ha implementado dentro de Power Query una interesante funcionalidad a la hora de Combinar Consultas, donde se permiten combinar elementos entre consultas basándose en coincidencias parciales o aproximadas.
Veamos su uso.
Partimos de una tabla inicial ('TblUNO') con todos los datos correctos y como deberían aparecer en 'todos los sitios'... con dos campos: Nombre y Valor.
En una segunda tabla ('TblRESULTADO') donde nos aparecen los nombres (que deberían coincidir) escritos de maneras muy dispares...
sin tildes, abreviados, orden cambiado, etc...
En primer lugar cargaremos como conexión solo las dos tablas comentadas.
En el siguiente paso, desde el Editor de consultas de Power Query procederemos a Combinar ambas consultas.
Desde la ficha Inicio > botón desplegable Combinar > Combinar consultas > Combinar consultas para crear una nueva
En la ventana que se abrirá elegiremos nuestras dos tablas a combinar y seleccionaremos los campos clave de 'nombres'
Si no marcásemos opción alguna, y dejáramos tal cual la combinación, el resultado sería equivalente a un BUSCARV, i.e., solo localizaría las coincidencias exactas.
Nada novedoso.
Lo interesante viene ahora, si optamos por marcar la opción Usar las coincidencias aproximadas para comparar la combinación, donde automáticamente ofrece una combinación con un Umbral de similitud al 0,8 (umbral entre 0 y 1).
Este umbral de similitud es editable, e implica que valores próximos a uno-1 permitirá coincidencias exactas, y valores cercanos a cero-0 hará que todos los elementos coincidan unos con otros.
Otras opciones que se nos ofrecen son:
Ignorar mayúsculas y minúsculas
Hacer coincidir mediante la combinación de las partes del texto
Dejaré para un futuro post las otras opciones..
Si realizamos algunas pruebas cambiando el Umbral de similitud comprobaremos de primera mano el comportamiento de esas coincidencias.
Se observa que para elementos similares 'aparentemente' como 'Isabel Romero' e 'Ismael Romero' las coincidencias aproximadas devuelven coincidencia!!, lo que nos generará un problema...
Igualmente problemático son algunos elementos abreviados: 'J. Perez' y 'Juan Pérez' donde para forzar la coincidencia debemos indicar un Umbral de 0.
Por supuesto, lo interesante de esta funcionalidad es que poco a poco nos permitirá ir depurando nuestras bases de datos, con el peligro latente de continuar nuestros cálculos con coincidencias erróneas
:'(
Veamos su uso.
Partimos de una tabla inicial ('TblUNO') con todos los datos correctos y como deberían aparecer en 'todos los sitios'... con dos campos: Nombre y Valor.
En una segunda tabla ('TblRESULTADO') donde nos aparecen los nombres (que deberían coincidir) escritos de maneras muy dispares...
sin tildes, abreviados, orden cambiado, etc...
En primer lugar cargaremos como conexión solo las dos tablas comentadas.
En el siguiente paso, desde el Editor de consultas de Power Query procederemos a Combinar ambas consultas.
Desde la ficha Inicio > botón desplegable Combinar > Combinar consultas > Combinar consultas para crear una nueva
En la ventana que se abrirá elegiremos nuestras dos tablas a combinar y seleccionaremos los campos clave de 'nombres'
Si no marcásemos opción alguna, y dejáramos tal cual la combinación, el resultado sería equivalente a un BUSCARV, i.e., solo localizaría las coincidencias exactas.
Nada novedoso.
Lo interesante viene ahora, si optamos por marcar la opción Usar las coincidencias aproximadas para comparar la combinación, donde automáticamente ofrece una combinación con un Umbral de similitud al 0,8 (umbral entre 0 y 1).
Este umbral de similitud es editable, e implica que valores próximos a uno-1 permitirá coincidencias exactas, y valores cercanos a cero-0 hará que todos los elementos coincidan unos con otros.
Otras opciones que se nos ofrecen son:
Ignorar mayúsculas y minúsculas
Hacer coincidir mediante la combinación de las partes del texto
Dejaré para un futuro post las otras opciones..
Si realizamos algunas pruebas cambiando el Umbral de similitud comprobaremos de primera mano el comportamiento de esas coincidencias.
Se observa que para elementos similares 'aparentemente' como 'Isabel Romero' e 'Ismael Romero' las coincidencias aproximadas devuelven coincidencia!!, lo que nos generará un problema...
Igualmente problemático son algunos elementos abreviados: 'J. Perez' y 'Juan Pérez' donde para forzar la coincidencia debemos indicar un Umbral de 0.
Por supuesto, lo interesante de esta funcionalidad es que poco a poco nos permitirá ir depurando nuestras bases de datos, con el peligro latente de continuar nuestros cálculos con coincidencias erróneas
:'(
No hay comentarios:
Publicar un comentario
Nota: solo los miembros de este blog pueden publicar comentarios.