26 enero 2022 1900 palabras, 8 min. read Última actualización : 15 marzo 2022

ETL: comparasión, criterio de selección, consejo [guía 2022]

Por Pierre-Nicolas Schwab Doctor en marketing, director de IntoTheMinds
ETL: Extract – Transform – Load. Estas 3 palabras por sí solas resumen las funcionalidades que deben cubrir las soluciones software pertenecientes a esta familia. POR LO TANTO, una herramienta ETL es un software que simplifica la preparación de datos, […]

ETL: Extract – Transform – Load. Estas 3 palabras por sí solas resumen las funcionalidades que deben cubrir las soluciones software pertenecientes a esta familia. POR LO TANTO, una herramienta ETL es un software que simplifica la preparación de datos, ya sea de manera local o en la nube. Este último se centra en llevar a cabo 3 tipos de operaciones con los datos: (1) extraerlos de archivos de distintas naturalezas; (2) transformarlos y enriquecerlos para prepararlos para su explotación; (3) cargarlos en otro sistema para que puedan evaluarse.

La interfaz gráfica de las soluciones ETL simplifica estas operaciones, las cuales se basan en «cajas» que pueden juntarse para lograr el resultado deseado. Esto conlleva que se trate de una solución «Sin Código» que puede ponerse en las manos de (casi) cualquiera.

En este artículo explico todo lo que necesitas saber sobre ETL y te ofrezco mi opinión personal para ayudarte a decidir. No se trata de un artículo comercial (no vendo ETL), simplemente presento mi punto de vista objetivo.


Resumen


ETL: Cuál es su origen

La historia de los ETL se inició en la década de los 80. En aquel momento aparecieron soluciones de software específicas para gestionar flujos entre bases de datos «simples», y en los años 90 se produjo un cambio para adaptarlos a los almacenes de datos (DWH).

En el nuevo milenio, el mercado se volvió más estructurado y los ETL quedaron divididos en dos categorías:

  • ELT: algunos ETL se transforman en ELT, centrándose exclusivamente en las tareas de la «E» y la «L» (Extract y Load), dejando la «T» al motor de la base de datos. Ejemplos: Talend, Matillion, etc.
  • Los ETL completos: se añadieron más funcionalidades «T»: limpieza de datos, uniones ligeramente más complejas. Algunas de estas herramientas todavía existen en 2022. Por ejemplo, IBM DataStage, Ab Initio.

Alrededor de 2010 vimos una evolución de ETL para gestionar situaciones en las que no hay ningún motor de base de datos «detrás». A partir de ese momento los ETL pasaron a quedar algo anticuados; hemos entrado en la era del «lago de datos».
El lago de datos es un nuevo concepto optimizado para negocios/analistas de datos y científicos de datos con necesidades más avanzadas.

Gracias al lago de datos, las «ETL absolutas» se convierten en lo que llamo ETL+. Se les añade nuevas funcionalidades para que puedan realizar tareas más complejas: minado de texto, minado de datos (machine learning), IA, macrodatos, etc. En esta categoría encontramos las herramientas ETL que son, en mi opinión, las mejores: Anatella y Alteryx


ETL en el mercado

Hay demasiados ETL en el mercado para mencionarlos a todos, así que en los siguientes párrafos me limitaré a los 3 que uso a diario: Anatella, Alteryx, y Tableau. Podrían haber añadido Talend, seguramente la solución más conocida del mercado, pero no lo uso demasiado y no soy muy partidario de él (principalmente por los problemas de rendimiento que mencioné aquí).

Mencionemos también que las empresas como G2 publican comparativas de las soluciones ETL en el mercado. Al igual que el que aparece a continuación, los mapas de posicionamiento resultan útiles para valorar las distintas soluciones disponibles.

Benchmark ETL

Un mapa de posicionamiento  propuesto por la empresa G2 en su página web. Estos mapas son útiles ya que permiten posicionar distintas soluciones según unos criterios claros. (Fuente: Página de G2)


Funcionalidad nº1: Extraer

La primera funcionalidad de los ETL es extraer los datos del lugar en el que se encuentran. El término «extraer» quizás sea reductivo, porque se trata de la capacidad de abrir un archivo y dejar los datos disponibles para que puedan usarse en los siguientes procesos.

La emergencia de las soluciones SaaS y la democratización del almacenaje en la nube han hecho que la extracción de datos sea todo un rato; nunca había habido tantas fuentes de datos y formatos distintos. Algunos formatos propietarios están tan especializados que solo un puñado de ETL los proponen. Otro punto divertido es la capacidad de leer archivos «de la competencia». Anatella, por ejemplo, tiene una «caja» que puede leer archivos de Alteryx.

Y todo eso sin mencionar los archivos no estructurados (PDF, Word), los cuales constituyen todo un reto y requieren una transformación para poder ser explotados (consultar siguiente párrafo).

ETL Número de «cajas» para gestionar datos entrantes Comentarios
Alteryx 2020.1.5.25447 4
Tableau Prep 57 La lista de formatos que soporta Tableau Prep es impresionante.
Anatella 2.38 37 Anatella también puede manejar formatos de entrada desestructurados, lo cual puede llegar a ser muy útil.

Funcionalidad nº 2: Transformar

Incluso si tienes la mejor solución del mundo para extraer datos, te será inútil si después no puedes hacer nada con ellos, por lo que algunos ETL se distinguen claramente por el número de funciones (las famosas «cajas») disponibles. En mi opinión, las habilidades de «Transform» son las que añaden más valor a un ETL.

En la siguiente tabla repaso el número de cajas disponibles para «transformar» los datos. He contado las «cajas» cuyas funcionalidades se incluyen en alguna de las siguientes categorías: limpieza, unión, formateo de datos.

ETL Número de transformaciones disponibles Comentarios
Alteryx 2020.1.5.25447 33 Las cajas contadas pertenecen a las categorías «preparación», «unión» y «transformación» del menú principal. Para algunas de las cajas del menú «preparación», podría debatirse si son o no «transformativas», pero he decidido tenerlas todas en cuenta para no complicarlo.
Tableau Prep 5 Tableau Prep es muy básico en términos de transformación. Parece una herramienta de preparación de datos cuyo único objetivo es servir a la visualización usando Tableau. Si deben hacerse cálculos y transformaciones de variables, en su lugar usaríamos los campos de cálculos de Tableau, lo que dejaría de ser una opción Sin Código.
Anatella 2.38 50 Es, sin duda, la opción más rica en cuanto a rango de funcionalidades para transformaciones.

Ciertas características de transformación pueden marcar la diferencia entre 2 ETL

Por lo que a mí concierne, la diferente entre 2 ETL se encuentra en su capacidad para transformar datos. Los programadores me dirán que no es importante, pero yo no opino lo mismo. Un ETL es una herramienta de Código Bajo (o Sin Código), lo que significa que debería simplificar el trabajo para el personal sin conocimientos técnicos. El número de características disponibles de manera nativa es, en consecuencia, un criterio esencial a mis ojos.

Por ejemplo, te invito a leer este artículo dedicado a coincidencias parciales. Según la herramienta que uses, las coincidencias parciales serán más o menos complicadas de configurar, pero los que ya tienen bases de datos reconciliadas ya saben el tiempo que pueden consumir los problemas de calidad. Una función nativa de coincidencias parciales (especialmente cuando hay disponibles distintos algoritmos) es todo un plus.


Funcionalidad nº3: Cargar

De las 3 letras en «ETL», la «L» es la que para mí presenta un factor menor crítico. Lo más importante para un ETL es contar con suficientes posibilidades de exportación con formatos de intercambio estándar, ya que la preparación de datos con herramientas ETL a menudo no es más que el primer paso de otros procesos (modelos predictivos, minado de datos, visualización de datos) que se llevan a cabo con soluciones especializadas. Estas soluciones siempre cuentan con conectores de entrada.

Cuando el proceso de preparación/transformación de datos se ejecuta de manera continua, la situación cambia ligeramente; en este caso podría resultar interesante tener posibilidades de exportar a formatos propietarios. Por ejemplo, Anatella propone exportar en el formato propietario de Tableau (.hyper), lo cual ahorra tiempo durante la lectura de los datos y evita que haya problemas cuando se importan desde otro programa.

ETL Número de formatos de salida disponibles Comentarios
Alteryx 2020.1.5.25447 5
Tableau Prep 3 Los formatos de salida son mínimos. De hecho, Tableau Prep está diseñado como una herramienta para preparar los datos y visualizarlos en Tableau.
Anatella 2.38 27 Una vez más, hay muchos formatos de salida disponibles, incluso algunos muy exóticos o diseños poco usados. Si uno de ellos es importante para ti, podría ser un argumento muy firme a la hora de tomar tu decisión.

Características adicionales

Tal y como se explica en la sección «Historia», los ETL han evolucionado para incluir ciertas funcionalidades que van más allá del marco concreto del diagrama Extract – Transform – Load. Es el caso de las funcionalidades de análisis o visualización, y los «ETL+» que las proponen también debe considerarse.

Lejos de ser dispositivos con los que simplemente juguetear, esas funcionalidades adicionales dentro de la herramienta ETL son potenciadores que te permitirán cortocircuitar el proceso de análisis anticipando pasos concretos en el proceso de preparación de datos.

Debes definir tus necesidades de antemano para poder apreciar el valor de unas características como esas, aunque también es posible que algunas no sean más que anecdóticas para ti y no te resulten de gran utilidad. Ten cuidado y no caigas en la trampa de marketing de comprar componentes que no te interesan.

Como ejemplo, aquí tienes algunas de las características adicionales que más aprecio en la solución Anatella:

  • NLP: esta característica se inició en sus inicios para mí (como parte de mi trabajo de investigación sobre la viralidad en LinkedIn).
  • Detección de idioma: beneficioso cuando trabajas con datos no estructurados.
  • Visualización con V R: Anatella incorpora código R que permite realizar visualizaciones simples de manera rápida. Estas visualizaciones pueden usarse para tener una idea preliminar de los datos y llevar a cabo controles de calidad. Yo lo uso para comprobar que no se han perdido datos durante su proceso de preparación.

¿Qué ETL elegir?

Así que debes elegir el ETL que más encaje con tus necesidades concretas, algo evidente. Cada solución ETL tiene sus especificaciones y la comparación que he realizado anteriormente no es más que un modo de leerlas, pero hay muchos más.

Más allá del rango de funcionalidades, también deberías considerar la velocidad de los procesos de preparación de datos. Es algo de lo que me percaté en esta comparativa de 4 herramientas, y las diferencias en el tiempo de procesamiento fueron considerables.

En resumen, creo que hay 2 criterios objetivos fundamentales a tener en cuenta:

  • Las funcionalidades
  • La velocidad

También hay aspectos más subjetivos, como la hoja de ruta que tiene el desarrollador para el producto y la orientación que tiene su atención al cliente. Desde ese punto de vista, mis preferencias se inclinan claramente hacia Anatella. La empresa que hay detrás del programa es muy responsable y no duda en desarrollar soluciones específicas para cubrir tus necesidades; dudo que empresas como Talend o Alteryx hagan lo mismo.



Posted in Data y IT.

Publique su opinión

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *