Visualización de datos: definición, ejemplos, herramientas, consejos [guía 2021]

Visualización de datos: definición, ejemplos, herramientas, consejos [guía 2021]

La visualización de datos, o DataViz, es la disciplina que se centra en la representación gráfica de datos sin procesar. El propósito de la visualización de datos es crear valor. Los últimos años han visto surgir nuevas herramientas y prácticas en torno a la visualización de datos y la aparición de nuevas profesiones. Este artículo comenzará dándote la definición de visualización de datos e ilustrará con un ejemplo concreto de los 5 niveles de visualización de datos. Luego cubriremos la evolución de las prácticas de visualización de datos y revisaremos las diferentes herramientas disponibles. Finalmente, te brindaremos algunos consejos prácticos para comenzar a usar DataViz.

He tratado de cubrir la esencia del tema y ofrecer diferentes perspectivas. Si tienes alguna sugerencia, no dudes en dejar un comentario. Si necesitas consultar algo sobre DataViz, no dudes en contactarme por Email o vía LinkedIn.

Si solo tienes 30 segundos

  • La visualización de datos (o DataViz) tiene como objetivo explorar grandes cantidades de datos utilizando un medio visual.
  • Hay 5 niveles en la visualización de datos (del 0 al 4) dependiendo de las herramientas utilizadas y los objetivos que se persigan
  • La visualización de datos se basa en la necesidad de dar sentido a cantidades excesivas de datos sin procesar.
  • Se documentan ejemplos de visualizaciones muy antiguas ya en el siglo XVI.
  • Se pueden distinguir 3 fases en el desarrollo de herramientas de visualización.

Índice


Introducción

No se te habrá escapado que los datos se han convertido en un tema crucial para todas las empresas. La ciencia de datos ha pasado de ser una palabra de moda hace 5 años a ser una prioridad para muchas empresas. Esto se puede ver en los términos de búsqueda en Google (mira el gráfico de a continuación). Vale la pena señalar que el término “visualización de datos” parece ser ampliamente preferido desde 2010 como “DataViz”.

La demanda de científicos de datos aumentó en un 59% entre 2018 y 2019. Harvard Business Review lo convirtió en el trabajo más sexy del siglo XXI en un artículo de 2012. Sin embargo, sería incorrecto pensar que la visualización de datos es una práctica nueva. Siempre se ha utilizado para informar visualmente de la complejidad de un problema o de la evolución de una situación. Ya en el siglo XIX, los científicos sociales como Charles Booth visualizaron los datos, los recopilaron para materializar sus descubrimientos. Visualizar un problema tiene el efecto secundario positivo de simplificar la comprensión. ¿No se dice que una buena imagen es mejor que mil palabras?


Visualización de datos: definición

¿Qué es la visualización de datos? Es la práctica de representar datos en forma gráfica para simplificar su comprensión. Insisto en la dimensión de “simplificar la comprensión” porque es el interés de una buena visualización frente a una tabla llena de figuras. La cantidad de datos disponibles para las empresas aumenta exponencialmente, lo que refuerza la importancia de la visualización de datos.

Este aumento constante ha sido teorizado por la regla de las 4V de IBM (mira el gráfico de a continuación, crédito a IBM) y explica la aparición de herramientas de visualización de datos ad hoc. Las primeras herramientas para fines comerciales (Tableau, Qlik) aparecieron hace ya más de 10 años. Con ellas también apareció un nuevo término: inteligencia empresarial (o BI en inglés para abreviar). Cada año, Gartner hace una referencia completa de todas las herramientas disponibles del mercado.

4V du Big Data

IBM ha teorizado las 4V (velocidad, variedad, volumen, veracidad) del Big Data. Estos 4 atributos nos permiten comprender la aceleración en funcionamiento en los datos y apreciar la importancia de la visualización de datos como práctica para crear valor.


Visualización de datos: los 5 niveles explicados con un ejemplo concreto

Un ejemplo es mejor que mucho texto, así que he pensado que un caso concreto te iluminaría. Te propongo que captes el interés de la visualización de datos retomando un tema que traté en 2020, el de los flujos migratorios hacia la Unión Europea.

Nivel 0: datos brutos

El DataViz de nivel 0, por supuesto, no es ningún DataViz en absoluto. En este ejemplo, se encontrará con un archivo de unos pocos miles de líneas. Los datos son muy granulares y, por lo tanto, se crea una línea para cada segmento de migrantes. La base de datos también tiene muchos valores nulos para segmentos vacíos. Por ejemplo, Estonia no ha recibido a ningún migrante mayor de 18 años procedente de Afganistán.

Nivel 1: visualización agregada en Excel

La visualización de datos de nivel 1 es lo que puedes lograr con una herramienta como Excel. Un histograma, un gráfico circular, una curva, ya son formas (simples) de visualización de datos, y ya pueden ser suficientes. Por tanto, no es de extrañar que muchas empresas las utilicen y estén satisfechos con ellas. Para continuar con el ejemplo anterior, nos encontramos con una visualización de la evolución del número de migrantes por año. En esta etapa, el lector se enfrenta, por tanto, a una visualización estática que presenta un nivel de granularidad relativamente bajo. Explorar los datos con mayor profundidad requeriría multiplicar gráficos de este tipo para comparar, por ejemplo, la evolución por país, por grupo de edad, por género, etc. Como esta información es diferente y los países de origen y destino son numerosos, sería un desafío representar todo en un solo gráfico.

Nivel 2: diferentes tipos de datos en un solo gráfico

Hacer caso omiso de las representaciones gráficas simples (histogramas, gráficos circulares, curvas …) te permite llegar a la esencia de la visualización de datos. Pasar del nivel 1 al nivel 2 requiere cierta cantidad de creatividad y experiencia para crear representaciones visuales que brinden conocimientos reales. En mi opinión, lo que diferencia al especialista en DataViz del usuario de Excel es precisamente esto: la capacidad de crear una representación visual que le permita ir más allá de las conclusiones más obvias. Es esta misma frontera la que separa el mundo del BI del de la ciencia de datos. Por lo tanto, podemos imaginar que una visualización de nivel 2 mezclaría datos de origen, género y volumen. Esto es lo que he intentado hacer rápidamente a continuación.

Nivel 3: visualización de datos interactiva

Las herramientas más poderosas del mercado te permiten crear visualizaciones interactivas. El usuario se convierte en actor de sus propios descubrimientos basados ​​en datos. Al activar filtros y opciones, tienes la oportunidad de variar la visualización según tus necesidades. Pasamos así de una representación visual estática a una dinámica. El siguiente ejemplo, que publiqué online en Tableau Public, permite al usuario cambiar de un país a otro para observar las variaciones año tras año para cada género. Los conocimientos adicionales están disponibles en forma de clasificaciones actualizadas automáticamente. Te invito a que pruebes este panel dinámico por ti mismo visitando mi Página de Tableau Public.

Nivel 4: Data Art o el máximo nivel de visualización de datos

Las visualizaciones de Nicholas Rougeux son tan hermosas que las vende como carteles. En esta imagen se puede ver el trabajo que ha realizado sobre el tema de la mineralogía. El último nivel de visualización de datos (al que me esfuerzo por acercarme con creaciones como ésta) añade una dimensión estética al conjunto. La minería de datos y el descubrimiento de conocimientos ya no son suficientes. El resultado todavía tiene que ser atractivo, digno de estar en la pared de tu salón. La profesión de “artista de datos” está de moda con artistas como Nicholas Rougeux (a quien ya hemos recibido en nuestro podcast) o la fantástica Federica Fragapane. En esta categoría, las herramientas utilizadas están más en la paleta del diseñador gráfico que en el analista. Para obtener más información sobre quién es un artista de datos, consulta la entrevista de Nicholas Rougeux a continuación.

Sowerby mineralogy poster Nicholas Rougeux

Las visualizaciones de Nicholas Rougeux son tan hermosas que las vende como carteles. En esta imagen se puede ver el trabajo que ha realizado sobre el tema de la mineralogía.


Una perspectiva histórica sobre la visualización de datos

Lorenz Codomann, Chronographia (1596)

Lorenz Codomann, Chronographia (1596)

Si la práctica de informar gráficamente un problema no es nueva, el término “visualización de datos” probablemente es más de lo mismo. Al medir la popularidad de este término en Google, podemos ver que se está volviendo cada vez más prominente a partir de 2010 (ver gráfico anterior). Curiosamente, el nombre “DataViz” se ha vuelto completamente anecdótico después de haber estado en su apogeo a principios de la década de 2000 (un análisis geográfico muestra que el término “DataViz” ahora parece ser la prerrogativa de la investigación realizada en Francia, el resto del mundo ha aparentemente ha abandonado el uso de este término).

Sin embargo, la visualización de datos no es nueva. Si he mencionado el ejemplo de Charles Booth en el siglo XIX en la introducción, se podría decir que nos han llegado ejemplos aún más lejanos. En su libro “Cartografías del tiempo”(2012), Daniel Rosenberg y Anthony Grafton muestran cómo la representación del tiempo ha evolucionado a través de los tiempos. Ya en el siglo XVI, comenzaron a surgir embriones de visualización de datos temporales. Los dos ejemplos opuestos (Lorenz Codomann, Chronographia, 1596) y a continuación (Johannes Temporarius, 1596) lo atestiguan.

Johannes Temporarius (1596)

Visualización de datos propuesta por Johannes Temporarius en 1596.

En su propio tiempo y con los medios a su alcance, cada uno de los autores imaginó una forma más visual de leer y analizar los datos.

Algunas de las visualizaciones más sofisticadas tienen su origen en obras bastante antiguas. Los gráficos o diagrámas de Sankey  son una evolución de los diagramas de flujo, algunos de los cuales son bastante antiguos. Este es el caso, por ejemplo, del diagrama establecido por Charles Minard en 1869 para representar las pérdidas de Napoleón durante la campaña rusa. Por lo general, es una visualización de nivel 2 (consulta mi clasificación anterior) que combina datos cuantitativos (número de muertes) con datos topológicos y temporales. El resultado es bastante extraordinario y revela la inventiva de su autor, característica de las visualizaciones de nivel 2. Este trabajo todavía está siendo analizado hoy en día e incluso se presenta en forma de carteles.

En 1869 Charles Minard hizo una visualización de las pérdidas humanas durante la campaña napoleónica de 1812-1813 en Rusia. Este diagrama, cuya densidad es proporcional a las bajas humanas, sirvió de inspiración para muchas otras visualizaciones. Sankey dio su nombre en 1898 a los diagramas de flujo, que hoy son el origen de muchas visualizaciones de datos precisas.

La campagne de Russie (diagramme Sankey) par Charles Minard en 1869

En 1869 Charles Minard hizo una visualización de las pérdidas humanas durante la campaña napoleónica de 1812-1813 en Rusia. Este diagrama, cuya densidad es proporcional a las bajas humanas, sirvió de inspiración para muchas otras visualizaciones. Sankey dio su nombre en 1898 a los diagramas de flujo, que hoy son el origen de muchas visualizaciones de datos precisas.


La creciente informatización de las empresas y la producción de datos tras la digitalización de comportamientos son los dos elementos que han contribuido a la necesidad de más visualizaciones de datos. Sin que esto sea una verdad absoluta, considero que el período moderno se puede dividir en 3 fases:

La fase de Excel: datos no centralizados

La “fase Excel” corresponde al período durante el cual Excel fue la herramienta única utilizada por las empresas para producir representaciones gráficas utilizadas para ilustrar informes. Aunque Excel todavía se utiliza mucho hoy en día, es fundamental recordar que, en un momento dado, las empresas no tenían nada más para hacer gráficos. Una diferencia fundamental entre la visualización de datos actual y la visualización de datos anterior al 2000 es la intención detrás del gráfico. Antes del 2000, el gráfico se producía con la intención de informar. La visualización se produjo con fines informativos. Las preguntas del destinatario se manejaron de forma asincrónica.

La fase ERP: los datos esenciales de la empresa están centralizados

A principios de la década de los 2000, el software de planificación de recursos empresariales (ERP) se hizo popular y permitió a las empresas centralizar sus datos. Este es un paso fundamental para conectar diferentes líneas de negocio dentro de la empresa. Varias fuentes de datos se vuelven conectables, lo que revela la necesidad de analizarlas e interpretarlas. Considero que este movimiento hacia la centralización marca el surgimiento de la Inteligencia Empresarial (BI). Los proveedores de soluciones ERP (SAP, Oracle) estaban aprovechando esta oportunidad y proponiendo soluciones de BI integradas que siguen siendo relevantes en la actualidad (consulta el Cuadrante Mágico de Gartner a continuación). Al extender sus tentáculos a todas las áreas de la empresa, la cantidad de datos centralizados solo ha aumentado, lo que refuerza la importancia de la BI.

El desarrollo de soluciones independientes de DataViz

La creciente cantidad de datos ha llevado al desarrollo de soluciones de visualización independientes que son más poderosas que las proporcionadas dentro de las suites de software. Primero recordemos que Tableau (una de las primeras soluciones independientes en el mercado ya en 2003) nació de un proyecto para visualizar grandes cantidades de datos. Pat Hanrahan y Chris Stolte desarrollaron VizQL (Visual Query Language), un lenguaje para consultar gráficamente grandes bases de datos. La necesidad de conseguir soluciones de visualización autónomas es, por tanto, la necesidad de explorar grandes cantidades de datos.


Visualización de datos: desafíos y oportunidades en las empresas

Aunque la visualización de datos ha adquirido ciertos rasgos de importancia, y a pesar de la democratización de herramientas como PowerBI (Microsoft), Excel todavía tiene un futuro brillante por delante. Hoy en día, muchas tareas de generación de informes siempre se realizan en Excel. El equipamiento de las estaciones de trabajo puede explicar esta omnipresencia. Con el paso de los años, Excel se ha convertido en un “lenguaje universal” que todos pueden aprender desde sus primeros pasos con un ordenador.

A nadie se le escapará que las estrategias centradas en datos se han puesto muy de moda. Muchas empresas afirman estar “impulsadas por datos”, es decir, que basan sus decisiones en el análisis de datos. Por tanto, las oportunidades que ofrece la visualización de datos están íntimamente ligadas a la producción de datos en las empresas.

Las oportunidades de DataViz son naturalmente numerosas y me parece que surgen de los desafíos relacionados con los datos en sí. Quiero distinguir tres de ellos.

  1. El principal desafío para las empresas hoy en día es (todavía) trasladar la práctica de la visualización de datos de los informes a la minería de datos. Liberar el poder de los datos significa usarlos para crear valor. Sin embargo, con demasiada frecuencia, las visualizaciones son banales y contienen contenido para informar sobre indicadores día tras día. Por lo tanto, podríamos resumir diciendo que las empresas aún están lejos de haber adoptado una “cultura” de datos.
  2. El segundo desafío radica en la capacidad de hacer que la visualización de datos esté disponible para todos. Esto es lo que intenta hacer Microsoft al ofrecer la licencia PowerBI. Al hacerlo, cada colaborador podrá “jugar con los datos” y buscar por sí mismo información que pueda afectar su trabajo.
  3. El tercer desafío es recopilar y centralizar datos de manera más prosaica para permitir su exploración. La visualización de datos solo tiene sentido si permite la exploración de cantidades de datos más allá de lo que es posible con las herramientas de automatización de oficina convencionales.

Visualización de datos: herramientas disponibles

Sería difícil pretender hacer un inventario exhaustivo de todas las soluciones DataViz porque no las conozco todas y, en segundo lugar, porque otros ya lo están haciendo, así que empezaré hablando del Cuadrante Mágico de Gartner (ver abajo). Esta herramienta de evaluación comparativa se publica una vez al año y evalúa diferentes soluciones sobre la informática, incluidas las soluciones de visualización de datos. El índice de referencia se divide en 4 categorías:

  • líderes
  • retadores
  • visionarios
  • jugadores de nicho

Las 4 empresas que dominan este punto de referencia son:

  • Microsoft con PowerBI
  • Tableu
  • Qlik
  • ThoughtSpot
data visualisation magic quadrant gartner 2020

El Cuadrante Mágico de Gartner es un punto de referencia para las herramientas de visualización de datos. Se publica anualmente y clasifica las soluciones de visualización de datos en 4 categorías (líderes, retadores, jugadores de nicho, visionarios). Arriba, la edición 2020.


PowerBI

PowerBI es la solución de Microsoft. Se propone de forma gratuita a los compradores de una licencia de Office 365. Se trata de una estrategia ingeniosa de Microsoft, que pretende hacer de PowerBI un “lenguaje universal” dentro de la empresa al igual que Excel (ver arriba). La facilidad de uso de PowerBI es bastante notable, especialmente cuando se trata de las visualizaciones más complejas. PowerBI propone una biblioteca (crowdsourcing) de modelos de visualización que son oportunidades para romper la rutina de histogramas y otros gráficos circulares. Una de las desventajas de PowerBI (que me horroriza) es la imposibilidad de exportar cuadros de mando como archivos png o jpeg.

Tableau

Tableau ha perdido terreno en comparación con PowerBI pero sigue siendo, en mi opinión, la solución más avanzada del mercado, la solución más completa también en términos de la latitud que se ofrece al usuario. Sin embargo, esta latitud tiene el precio de una mayor complejidad, especialmente para la implementación de visualizaciones complejas (diagramas de Sankey, JoyPlot, …). Donde PowerBI te ofrece una solución clave a mano, Tableau te obliga a tomar caminos secundarios. En mi opinión, las funcionalidades de Tableau siguen siendo más avanzadas que las de PowerBI, especialmente en la producción de cuadros de mando fuera de lo común (Niveles 3 y 4 de la clasificación). Desde el principio, Tableau quería crear una comunidad de evangelistas que se federa a través de 2 vehículos: Tableau Public, que te permite usar Tableau de forma gratuita siempre que pongas las visualizaciones producidas a disposición de todos; IronViz, un concurso de visualización de datos que ve a varios cientos de programadores (incluyéndome a mí) competir cada año. En 2020, Tableau abrió una galería virtual que recoge las visualizaciones más atractivas producidas en los últimos años (Data Art).


Consejos prácticos para comenzar con la visualización de datos

Si tuviera que darte un consejo de oro, sería nunca volver a hacer gráficos en Excel y usar una herramienta profesional de DataViz (ya sea PowerBI u otra). Si eres estudiante, recuerda que muchos softwares de visualización de datos se pueden utilizar de forma gratuita.

¿Por qué aconsejarte que deje de hacer gráficos en Excel?

La lógica subyacente para producir un gráfico es bastante diferente entre Excel y el software de visualización de datos. Esto lleva a tener que “rotar” los datos. Además, tengo la debilidad de creer que al comenzar lo antes posible a visualizar datos en una solución ad hoc, los dominarás mejor y marcarás la diferencia con tus compañeros. El mundo del trabajo es la jungla; bien podrías ser el rey de la jungla con este empujón. Le enseñé a mi hijo DataViz y él cuenta sus experiencias en sus videos de YouTube (ver más abajo).

¿Es necesario realizar un curso de DataViz?

Para entender lo básico, creo sinceramente que no es necesario realizar un curso. Además, cada solución tiene foros y tutoriales útiles para “meter un pie dentro”. Por otro lado, pasar de un nivel a otro (especialmente la transición del nivel 2 al nivel 3) requiere, en mi opinión, algo de coaching. Parece que es bastante complicado pasar de un nivel a otro sin un mentor o al menos un entrenador que pueda guiarte rápidamente por los mejores caminos a seguir. Cuando me enfrento a situaciones complicadas, encuentro útil confiar en alguien que ahorra tiempo al indicarle la dirección correcta.

¿Cómo progresar por ti mismo?

Mi experiencia me demuestra que es difícil progresar solo sin una motivación real. En mi caso, alcancé un nivel de competencia al participar en IronViz en 2020. La extensa investigación que tuve que realizar y las soluciones que tuve que desarrollar me ayudaron mucho. Incluso si no gané, salí de esta experiencia significativamente impactado, como he explicado en esta publicación del blog.


Conclusiones

Hoy en día, la visualización de datos se ha convertido en una habilidad por derecho propio en las empresas, incluso en una profesión para aquellos más “impulsados ​​por los datos”. El aumento del poder del software especializado y el cambio de Microsoft a PowerBI nos dan la esperanza de que están surgiendo nuevas prácticas dentro de las empresas. Es razonable pensar que Excel, como herramienta de visualización, está condenado al fracaso. Pero antes de hacer de la visualización de datos un motor de transformación digital, tendremos que esperar por muchos años más. De hecho, DataViz solo tiene sentido si hay datos disponibles y si se desarrolla una “cultura de conocimiento”, incluso entre las PYME.


Publicado en Data y IT.