ETL: Anatella en versión web con un gran rendimiento
Jun17

ETL: Anatella en versión web con un gran rendimiento

Si te interesan la ciencia de los datos, ya sabrás que la preparación de datos es un paso que consume mucho tiempo. Esa es la razón por la que elegir el software ETL adecuado es tan importante. Mi solución preferida se llama Anatella, y aprecio sus cualidades en términos de velocidad y en la riqueza de las transformaciones propuestas. Así que, por supuesto, siempre me entusiasma cuando llega un producto nuevo al mercado. En este caso,...

Leer más
LinkedIn: los sentimientos expresados y su efecto en la viralidad
Jun14

LinkedIn: los sentimientos expresados y su efecto en la viralidad

Todo el mundo concuerda en que el contenido de las publicaciones de LinkedIn es un factor determinante en la probabilidad de que se vuelva viral. Así que hoy no voy a responder a la pregunta «¿De qué deberíamos hablar en LinkedIn?», sino «¿Cómo deberíamos hablar?». He usado una recopilación de 4 millones de publicaciones en LinkedIn para medir los sentimientos expresados y analizar su correlación con su viralidad. Este análisis es una continuación del que publiqué...

Leer más
Los 11 retos de la preparación y el tratamiento de datos
Jun07

Los 11 retos de la preparación y el tratamiento de datos

Los acontecimientos de 2020 han acelerado el cambio hacia el teletrabajo y las relaciones digitales. Gracias a la digitalización, se ha puesto en marcha también otra transformación: la transformación analítica. Para hacer frente a esta revolución de los datos, creo que las empresas no tienen necesariamente las herramientas adecuadas para preparar y analizar los datos (preparación de datos o data wrangling). En este artículo, he querido destacar el papel de estas herramientas en el funcionamiento de...

Leer más
Preparación de datos: cómo reducir el tiempo de procesamiento en un 85%
Jun02

Preparación de datos: cómo reducir el tiempo de procesamiento en un 85%

En un artículo anterior, utilicé un benchmark de 4 soluciones ETL para procesar un archivo de mil millones de líneas. Hoy he experimentado el efecto de los SSD y los formatos de archivo propios en la velocidad de procesamiento de Alteryx, Tableau Prep, Talend y Anatella. Los resultados son bastante inesperados. Introducción y revisión En mi análisis anterior, comparé la velocidad de procesamiento de 4 soluciones de preparación de datos: Alteryx, Talend, Tableau Prep y Anatella....

Leer más
Los 3 factores que determinan el 55% del éxito de sus publicaciones en LinkedIn
May31

Los 3 factores que determinan el 55% del éxito de sus publicaciones en LinkedIn

Es necesario entender cómo funciona el algoritmo de LinkedIn para mantenerse visible en esta red social. Este artículo revela los resultados de un análisis que realicé utilizando 4,599 millones de publicaciones en LinkedIn en 193 países. Los resultados son sorprendentes y desafían muchas nociones preconcebidas. Sólo hay 3 factores que intervienen en la visibilidad de las publicaciones en LinkedIn. Este artículo también incluye los resultados de una investigación que ya publiqué anteriormente sobre el efecto de...

Leer más

El factor más importante en la viralidad de sus publicaciones en LinkedIn

Después de discutir el efecto de los emoji y el número de palabras en la viralidad de las publicaciones de LinkedIn, es hora de revelar EL factor que domina sobre los demás. Este factor representa 1/3 del éxito de sus publicaciones en LinkedIn. Así que debería tomarse el tiempo de leer los resultados de la investigación que acabo de realizar sobre 4,6 millones de publicaciones en LinkedIn en 193 países. Obtuve los resultados inéditos presentados aquí...

Leer más
LinkedIn: Estadísticas de compromiso por país e idioma
May26

LinkedIn: Estadísticas de compromiso por país e idioma

¿Cómo varía la participación en LinkedIn según el idioma y el país? A nivel mundial, el 71,06% de las publicaciones de LinkedIn no reciben comentarios y el 24,39% no reciben me gusta. Al analizar 4,599 millones de publicaciones en LinkedIn, tenemos una visión objetiva de las diferencias esenciales que existen. Los datos proceden de un conjunto de datos facilitado por Linkalyze. La preparación de los datos se hizo con Anatella (Timi) y la visualización con Tableau....

Leer más
LinkedIn: el sorprendente efecto de los emoji en la viralidad de los posts
May25

LinkedIn: el sorprendente efecto de los emoji en la viralidad de los posts

¿Debería utilizar emoji en sus publicaciones de LinkedIn y, en caso afirmativo, cuántos? En el artículo de hoy, hablaré de los resultados de una investigación que realicé sobre 4,599 millones de publicaciones en LinkedIn. Esta investigación sigue a las anteriores sobre el impacto de los hashtags y la cuenta de palabras. Si quiere ser de los primeros en recibir mis resultados, suscríbase a mi boletín (no olvide hacer clic en el enlace de confirmación que le enviaré...

Leer más
224 palabras, el número mágico para aumentar el impacto de sus publicaciones en LinkedIn
May19

224 palabras, el número mágico para aumentar el impacto de sus publicaciones en LinkedIn

Uno de los factores que determina el éxito de una publicación en LinkedIn es, sin duda, el número de palabras, además de los hashtags. Hice un análisis de casi 5 millones de publicaciones en 100 países que muestra una correlación lineal entre el número de palabras en una publicación de LinkedIn y el número de «me gusta» y comentarios recibidos. Las publicaciones que contienen entre 224 y 227 palabras tienen 6 veces más probabilidades de obtener...

Leer más
¿Cuántos hashtags debería incluir en sus publicaciones de LinkedIn? [Investigación]
May17

¿Cuántos hashtags debería incluir en sus publicaciones de LinkedIn? [Investigación]

¿Cuántos hashtags debería incluir en sus publicaciones de LinkedIn para aumentar su visibilidad? Por cierto, ¿es correcto poner hashtags y cómo reacciona el algoritmo de LinkedIn? He analizado 4.988 millones de publicaciones de LinkedIn en más de 100 países, y en este artículo responderé a estas preguntas. Para recibir más resultados exclusivos por correo electrónico, suscríbase a mi boletín y sígame en LinkedIn. Dirección de correo electrónico  * Suscríbase By signing up, you agree to our...

Leer más
Minería de datos: Definición, 5 herramientas gratuitas y técnicas
May10

Minería de datos: Definición, 5 herramientas gratuitas y técnicas

Después de haber realizado el proceso de recogida y preparación, hay que realizar un análisis de los datos para comprender el significado de un conjunto de datos. Mirar una página de datos no contribuye mucho a construir patrones de comportamiento de los clientes, por lo que será necesario utilizar una forma inteligente (minería de datos) para cribar la información. Utilizando enfoques y algoritmos basados en la estadística, seremos capaces de iniciar la extracción de datos. Dirección...

Leer más
Excel domina el mundo de los negocios… y así va a seguir siendo
Abr16

Excel domina el mundo de los negocios… y así va a seguir siendo

Muy pocas marcas disfrutan de un índice de penetración del 100%, y Microsoft es una de ellas. Y va más allá: el uso de uno de sus productos, Microsoft Excel, se extiende en el 99,99% del mundo empresarial. Microsoft Excel está en todas partes. ¿No puedes soportarlo ni un segundo más? Pues vas a tener que acostumbrarte, porque es una situación que no cambiará en el futuro inmediato. Pero si bien Excel posee cualidades innegables, también...

Leer más
Gestión de datos: definición, pasos, herramientas [Guía 2021]
Mar29

Gestión de datos: definición, pasos, herramientas [Guía 2021]

Puede que la gestión de datos suene como un término tecnológico bastante intimidante a primera vista, pero todo el mundo puede llegar a comprender este proceso con solo un poco de tiempo y esfuerzo. La gestión de datos, también conocida como «procesamiento de datos», forma parte de un proceso mayor llamado «preparación de datos». La gestión de datos se lleva a cabo para recoger, seleccionar, reestructurar, enriquecer y finalmente transformar información con el objetivo de responder...

Leer más
Indicadores ETL: ¿cuánto se tarda en procesar mil millones de líneas?
Mar26

Indicadores ETL: ¿cuánto se tarda en procesar mil millones de líneas?

En un artículo anterior, destaqué la importancia de la velocidad de procesamiento cuando se elige una solución de preparación de datos (ETL). Creé un benchmark inicial entre Alteryx, Tableau Prep, y Anatella en un archivo con 108 millones de líneas. Esta vez he repetido la operación con 1.039 billones de líneas y he añadido Talend al benchmark. Los resultados han sido inesperados ya que la velocidad de procesamiento varía en un factor de 1 a 20. AVANCE:...

Leer más
Benchmark: ¿qué ETL escoger para gestionar archivos grandes?
Mar15

Benchmark: ¿qué ETL escoger para gestionar archivos grandes?

Cuando se trata de preparar datos, está claro que una buena parte de los procesos siguen produciéndose offline con archivos extraídos de bases de datos relacionales. Y cuando los ingenieros de datos tienen que manipular esos archivos, tener una ETL que pueda soportar la carga se vuelve esencial. En el artículo de hoy propongo que abordemos el fascinante tema de los grandes archivos comparando 2 ETL que uso de manera diaria: Alteryx y Anatella. Dirección de...

Leer más
Preparación de datos: definición, ejemplos, consejos [guía 2023]
Ene18

Preparación de datos: definición, ejemplos, consejos [guía 2023]

Para hablar de la preparación de datos, lo mejor es empezar desde la observación. En el mundo de los datos, hay una regla que conoce todo el mundo: el 80% del tiempo de un científico de datos se dedica a preparar sus datos, y sólo el 20% a trabajar en ellos, especialmente en su visualización. Este artículo se centrará en la preparación de los datos: los problemas más frecuentes, las herramientas y las tendencias. ¡Vamos a...

Leer más
Visualización de datos: definición, ejemplos, herramientas, consejos [guía 2021]
Dic09

Visualización de datos: definición, ejemplos, herramientas, consejos [guía 2021]

La visualización de datos, o DataViz, es la disciplina que se centra en la representación gráfica de datos sin procesar. El propósito de la visualización de datos es crear valor. Los últimos años han visto surgir nuevas herramientas y prácticas en torno a la visualización de datos y la aparición de nuevas profesiones. Este artículo comenzará dándote la definición de visualización de datos e ilustrará con un ejemplo concreto de los 5 niveles de visualización de...

Leer más
Tutorial: Cómo crear un Joyplot con Tableau
Oct02

Tutorial: Cómo crear un Joyplot con Tableau

Después de haberte explicado cómo crear un mapa hexadecimal isométrico, ahora abordo un tema más difícil: la creación de un diagrama de control con Tableau. He usado un joyplot en la visualización que he enviado a IronViz. Como este tipo de gráfico es relativamente raro y he tenido algunos problemas para hacerlo bien, he pensado que un tutorial sería bien visto. Índice Definición de joyplot Origen del nombre «Joyplot» Tutorial sobre cómo crear un diagrama de...

Leer más
Mapa hexadecimal isométrico con Tableau, una guía paso a paso
Ago10

Mapa hexadecimal isométrico con Tableau, una guía paso a paso

Como parte de mi participación en el Iron Viz 2020, creé un nuevo tipo de visualización con Tableau, que ha recibido muchos comentarios positivos. Lo llamé “mapa hexadecimal isométrico”. En este artículo, explico cómo reproducir este tipo de representación y doy acceso a los archivos fuente. Puedes entrar la versión interactiva en Tableau Public. Si te gusta esta visualización, no dudes en dejar un comentario y utilizarla. El principio del mapa hexadecimal isométrico La visualización representa...

Leer más
Fuzzy matching entre tablas: 2 ETL comparados (Tableau Prep Builder vs Anatella)
Jun12

Fuzzy matching entre tablas: 2 ETL comparados (Tableau Prep Builder vs Anatella)

Si está manipulando datos con fines de análisis o visualización, es probable que se ya haya tenido que enfrentarse con este problema. Necesita crear una combinación entre 2 bases de datos, pero las entradas del campo de referencia no son las mismas. Diferencias ortográficas, terminologías diferentes, … las razones son muchas y variadas. Me encontré con este problema durante la investigación que estoy realizando para visualizar los flujos de migración. Tuve que resolverlo utilizando una solución...

Leer más