2 junio 2021 660 palabras, 3 min. read Última actualización : 10 junio 2021

Preparación de datos: cómo reducir el tiempo de procesamiento en un 85%

Por Pierre-Nicolas Schwab Doctor en marketing, director de IntoTheMinds
En un artículo anterior, utilicé un benchmark de 4 soluciones ETL para procesar un archivo de mil millones de líneas. Hoy he experimentado el efecto de los SSD y los formatos de archivo propios en la velocidad de procesamiento de […]

En un artículo anterior, utilicé un benchmark de 4 soluciones ETL para procesar un archivo de mil millones de líneas. Hoy he experimentado el efecto de los SSD y los formatos de archivo propios en la velocidad de procesamiento de Alteryx, Tableau Prep, Talend y Anatella. Los resultados son bastante inesperados.

Introducción y revisión

En mi análisis anterior, comparé la velocidad de procesamiento de 4 soluciones de preparación de datos: Alteryx, Talend, Tableau Prep y Anatella.

La publicación en las redes sociales suscitó varias críticas sobre el contenido (¿por qué probar la velocidad de procesamiento?) y la forma (¿por qué no optimizar la configuración dejando procesar el archivo en un SSD?).

Defendí mis opciones en la prueba de velocidad, ya que me molesta la lentitud de algunas soluciones, por un lado, y por otro, recordé que el tiempo de procesamiento es caro:

  • minutos perdidos esperando frente al ordenador
  • costes de procesamiento en la nube

Recuerde que su cuenta «en la nube» se compone en primer lugar por los costes de alquiler de la CPU. El almacenamiento se ha convertido en un bien muy asequible.

Si decide utilizar una solución ETL «sin código», será mejor que elija una rápida, especialmente si trabaja en la nube y la utiliza a menudo.


ETL’s : Alteryx vs. Tableau Prep vs. Talend vs. Anatella

La elección de las ETL para la comparación es completamente arbitraria. Simplemente son los únicos a los que puedo acceder:

  • Talend Open Studio v7.3.1
  • Tableau Prep 2020.2.1
  • Alteryx 2020.1
  • Anatella v2.35

Los tres primeros son conocidos; el último es una solución clasificada en el índice de referencia G2. Lo he estado usando durante años.

Pasemos ahora a los resultados. ¿Cuánto tiempo se tarda en procesar un conjunto de datos de mil millones de filas almacenado en un SSD?


Resultados: Efecto de un SSD en el tiempo de procesamiento del ETL

En primer lugar, permítanme recordarles que partí de un archivo CSV de 43,6 GB (¡es un dato significativo!) y que realicé 2 operaciones sencillas (una ordenación y un «agrupamiento por»). Les remito al primer artículo para ver todos los diagramas de los canales de procesamiento de datos.  Inicialmente, el procesamiento se realizaba en un disco duro con una velocidad máxima de 7200 rpm.
Para tanto, moví los archivos a mi SSD y ejecuté cada consulta 3 veces. Tomé el valor más bajo de los 3.

sin SSD con SSD diferencia
Alteryx 2290 1609 -30,1%
Anatella 730 679 -6,9%
Tableau Prep 2526 2691 +6,5%
Talend 13954 14340 +2,7%

Los resultados son sorprendentes. Pensaba que el uso de SSDs tendría algún efecto y, en cambio, no hay casi ninguno, salvo en el caso de Anatella, en el que hay una disminución del tiempo de procesamiento del 6,9% y con Alteryx, donde la reducción es del 30,1%. El procesamiento con Talend sigue siendo lento y, utilizando Tableau Prep, se nota un ligero aumento.

Afortunadamente, todavía tenía una carta que jugar… y dará sus frutos.


Resultados: El efecto del formato de datos propio en el tiempo de procesamiento

El otro aspecto que quería investigar era el de los formatos de archivo. Alteryx y Anatella proponen formatos de archivo propios que deberían mejorar el rendimiento. Son .yxdb y .gel respectivamente.
Por tanto, he sustituido el archivo CSV de 50 GB por un archivo en sus respectivos formatos proprios. Como puede ver, el resultado es espectacular.

 

SSD + archivo CSV SSD + archivo formato propio Diferencia
Alteryx 1609 1116 -30,6%
Anatella 679 96 -85,8%

 


Conclusiones

La primera conclusión que saqué de este estudio es que las SSD no aportan necesariamente una mejora en el tiempo de procesamiento. Todo depende de la solución utilizada.
Aunque hay una aceleración con Alteryx y Anatella, la ganancia más importante se nota cuando se utiliza el formato de archivo propio. En concreto, con Anatella, el tiempo de procesamiento se optimiza al máximo y baja a 96 segundos.

 

 

 



Posted in Data y IT.

Publique su opinión

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *