Datavisualisatie is de tak die zich richt op het grafische weergeven van ruwe data. Het doel van datavisualisatie is om waarde te creëren. De laatste jaren zijn er rond datavisualisatie nieuwe instrumenten en praktijken, maar ook nieuwe beroepen ontstaan. In dit artikel starten we met de definitie van datavisualisatie en illustreren we met een concreet voorbeeld de 5 niveaus in datavisualisatie. Vervolgens behandelen we de evolutie van praktijen inzake datavisualisatie en gaan we dieper in op de verschillende beschikbare tools. Tot slot geven we u enkele praktische tips om u op weg te helpen met dataviz.
Ik wil de essentie van het onderwerp behandelen en verschillende perspectieven bieden. Als u suggesties heeft, kunt u daar gerust commentaar op geven. Als u advies nodig heeft over dataviz, aarzel dan niet om contact op te nemen via e-mail of via Linkedin.
Als u maar 30 seconden heeft
- datavisualisatie (of dataviz) heeft als doel grote hoeveelheden gegevens te onderzoeken aan de hand van een visueel medium
- Er zijn 5 niveaus in datavisualisatie (0 tot 4), afhankelijk van de gebruikte instrumenten en de nagestreefde doelstellingen
- datavisualisatie vindt zijn oorsprong in de behoefte aan zingeving van excessieve hoeveelheden ruwe gegevens
- voorbeelden van zeer oude visualisaties zijn al in de 16e eeuw gedocumenteerd
- Er kunnen 3 fasen worden onderscheiden met betrekking tot de ontwikkeling van visualisatietools
Samenvatting
- Inleiding
- Definitie
- De 5 niveaus van datavisualisatie: concreet voorbeeld
- Geschiedenis van de datavisualisatie
- Uitdagingen en kansen in het bedrijfsleven
- Dataviz tools
- Praktisch advies
- Conclusie
Inleiding
Het zal u niet ontgaan zijn dat gegevens voor alle bedrijven een groot probleem zijn geworden. Datawetenschap is van een buzzwoord 5 jaar geleden uitgegroeid tot een prioriteit voor veel bedrijven. Dit komt ook tot uiting in de zoektermen op Google (zie onderstaande grafiek). Het is het vermelden waard dat de term “datavisualisatie” sinds 2010 de voorkeur lijkt te krijgen boven “dataviz”.
De vraag naar datawetenschappers is tussen 2018 en 2019 met 59% gestegen (Engelse site). De Harvard Business Review maakte het in een artikel uit 2012 (Engelse site) tot de meest sexy baan in de 21e eeuw. Het zou echter fout zijn te denken dat datavisualisatie een nieuwe praktijk is. Het wordt sinds mensenheugenis gebruikt om een visuele weergave te geven van de complexiteit van een probleem of de evolutie van een situatie. Al in de 19e eeuw visualiseerden sociale wetenschappers zoals Charles Booth de gegevens die ze verzamelden om hun ontdekkingen te materialiseren. De positieve kant van het visualiseren van een probleem is dat het makkelijker te begrijpen is. Wordt er niet gezegd dat een goed beeld beter is dan een lange speech?
Datavisualisatie: definitie
Wat is datavisualisatie? Het is de gewoonte om gegevens in grafische vorm weer te geven om ze gemakkelijker te kunnen begrijpen. Ik benadruk de dimensie van “gemakkelijker begrijpen” omdat dat het voordeel is van een goede visualisatie ten opzichte van een tabel vol cijfers. De hoeveelheid gegevens die beschikbaar is voor bedrijven neemt exponentieel toe, wat het belang van datavisualisatie versterkt.
Deze constante toename is getheoretiseerd door de 4V-regel van IBM (zie onderstaande grafiek, IBM-credits, Engelse site), en verklaart de opkomst van ad hoc datavisualisatietools. De eerste hulpmiddelen voor zakelijke doeleinden (Tableau, Qlik) verschenen al meer dan 10 jaar geleden. Bij hen verscheen ook een nieuwe term: business intelligence (of kortweg BI). Elk jaar maakt Gartner een volledige benchmark van alle beschikbare tools op de markt.
Datavisualisatie: de 5 niveaus uitgelegd met een concreet voorbeeld
Een voorbeeld is beter dan een lange toespraak, dus ik dacht dat een concreet geval u het welk kan doen begrijpen. Ik stel voor om u het belang van de visualisatie van gegevens te doen inzien via een onderwerp dat ik in 2020 heb behandeld, namelijk de migratiestromen naar de Europese Unie.
Niveau 0: ruwe gegevens
Niveau 0 van dataviz is natuurlijk helemaal geen dataviz. In dit voorbeeld krijgt u een bestand van een paar duizend regels. De gegevens zijn zeer korrelvormig en daarom wordt er voor elk migrantensegment één regel gecreëerd. Daarnaast heeft de database ook veel nulwaarden voor lege segmenten. Estland heeft bijvoorbeeld geen migranten boven de 18 jaar uit Afghanistan ontvangen.
Niveau 1: samengevoegde visualisatie in Excel
Niveau 1 van de datavisualisatie is wat u kunt bereiken met een tool als Excel. Een histogram, een taartdiagram, een curve, dit zijn al (eenvoudige) vormen van datavisualisatie en ze kunnen al volstaan. Het is dan ook niet verwonderlijk dat veel bedrijven er gebruik van maken en er tevreden mee zijn. Om verder te gaan met het vorige voorbeeld, vinden we een visualisatie van de evolutie van het aantal migranten per jaar. In dit stadium wordt de lezer dus geconfronteerd met een statische visualisatie die een vrij lage korrelgrootte heeft. Om de gegevens verder uit te diepen zou het nodig zijn dit soort grafieken te vermenigvuldigen om bijvoorbeeld de evolutie per land, per leeftijdsgroep, per geslacht, enz. te kunnen vergelijken … Aangezien deze informatie van verschillende aard is en de landen van herkomst en bestemming talrijk zijn, zou het moeilijk zijn om dit alles in één grafiek weer te geven.
Niveau 2: verschillende soorten gegevens op één grafiek
Door eenvoudige grafische voorstellingen (histogrammen, taartdiagrammen, curven, …) te negeren, komt u tot de essentie van de datavisualisatie. De overgang van niveau 1 naar niveau 2 vereist een zekere mate van creativiteit en ervaring om visuele representaties te creëren die toegang geven tot echte inzichten. Dit is wat volgens mij de dataviz-specialist onderscheidt van de Excel-gebruiker: het vermogen om een visuele weergave te creëren die verder gaat dan de meest voor de hand liggende conclusies. Het is dezelfde grens die de wereld van BI scheidt van die van de datawetenschap. In dit geval kunnen we ons voorstellen dat een niveau 2-visualisatie gegevens van oorsprong, geslacht en volume zou mixen. Dit is wat ik hieronder snel probeerde te doen.
Niveau 3: interactieve datavisualisatie
Met de krachtigste tools op de markt kunt u interactieve visualisaties maken. De gebruiker wordt de actor van zijn op gegevens gebaseerde ontdekkingen. Hij heeft de mogelijkheid om, door het activeren van filters en opties, de visualisatie te variëren al naargelang zijn wensen. We gaan dus van een statische visuele weergave naar een dynamische. Het onderstaande voorbeeld, dat ik online heb gezet op Tableau Public, stelt de gebruiker in staat om van het ene naar het andere land over te stappen, om variaties jaar na jaar te observeren, voor elk geslacht. Aanvullende inzichten worden beschikbaar gesteld in de vorm van automatisch bijgewerkte ranglijsten. Ik nodig u uit om dit dynamische dashboard zelf te testen door een bezoek te brengen aan mijn pagina op Tableau Public (Engelse site).
Niveau 4: Datakunst of het ultieme niveau van datavisualisatie
Het laatste niveau van datavisualisatie (dat ik probeer te benaderen met prestaties als deze, [Engelse site]) voegt een esthetische dimensie toe aan het geheel. Datamining en het ontdekken van inzichten volstaan niet langer. Het resultaat moet nog altijd mooi zijn, waardig om aan de muur van uw woonkamer te hangen. Het beroep van “datakunstenaar” is in zwang bij artiesten zoals Nicholas Rougeux (die we al voor een van onze podcasts mochten ontvangen) of de fantastische Federica Fragapane. In deze categorie liggen de gebruikte tools meer in lijn van het palet van de grafisch ontwerper dan dat van de analist.
Een historisch perspectief op datavisualisatie
Hoewel de praktijk van het grafisch weergeven van een probleem niet nieuw is, is de term “datavisualisatie” dat waarschijnlijk wel. Als we de populariteit van deze term op Google meten, zien we dat hij vanaf 2010 steeds populairder wordt (zie bovenstaande grafiek). Vreemd genoeg is de term “dataviz” nogal anekdotisch geworden na een piek in het begin van de jaren 2000 (een geografische analyse toont aan dat de term “dataviz” nu het voorrecht lijkt te zijn van zoekopdrachten die in Frankrijk worden uitgevoerd, terwijl de rest van de wereld blijkbaar heeft afgezien van het gebruik van deze term).
Datavisualisatie is echter niet nieuw. In de inleiding haal ik het voorbeeld van Charles Booth in de 19e eeuw aan, maar er zijn nog voorbeelden die verder teruggaan. In hun boek “Cartographies of Time” (2012, Engelse site) laten Daniel Rosenberg en Anthony Grafton zien hoe de representatie van de tijd door de eeuwen heen is geëvolueerd. Al in de 16e eeuw begonnen embryo’s van visualisatie van temporele gegevens te ontstaan. De twee voorbeelden hiertegenover (Lorenz Codomann, Chronographia, 1596) en hieronder (Johannes Temporarius, 1596) getuigen hiervan.
Elk van de auteurs stelde zich, in zijn eigen tijd en met de middelen die hem ter beschikking stonden, een meer visuele manier voor om gegevens te lezen en te analyseren.
Enkele van de meest verfijnde visualisaties vinden hun oorsprong in vrij oude werken. Het Sankey-diagram is een evolutie van stroomdiagrammen, waarvan sommige soms oud zijn. Dit is bijvoorbeeld zo met het schema dat Charles Minard in 1869 tekende om de Napoleontische verliezen tijdens de Russische campagne weer te geven. Het is typisch een niveau 2-visualisatie (zie mijn classificatie hierboven) die kwantitatieve gegevens (aantal doden) mengt met topologische en temporele gegevens. Het resultaat is vrij uitzonderlijk en onthult de inventiviteit van de auteur, kenmerkend voor niveau 2 visualisaties. Dit werk wordt vandaag de dag nog altijd geanalyseerd (Engelse site) en bestaat zelfs in de vorm van posters.
In 1869 maakte Charles Minard een visualisatie van de menselijke verliezen tijdens de Napoleontische campagne van 1812-1813 in Rusland. Dit diagram, waarvan de dikte in verhouding staat tot het menselijk verlies, diende als inspiratiebron voor vele andere visualisaties. Sankey gaf zijn naam in 1898 aan stroomdiagrammen die vandaag de dag de oorsprong zijn van prachtige datavisualisaties.
De toenemende informatisering van bedrijven en de productie van gegevens na de digitalisering van gedrag, zijn de twee elementen die hebben bijgedragen aan de behoefte aan meer datavisualisaties. Zonder dat dit een absolute waarheid is, ben ik van mening dat de moderne periode in drie fasen kan worden ingedeeld:
De Excelfase: niet-gecentraliseerde gegevens
De “Excelfase” komt overeen met de periode waarin Excel de unieke tool van de bedrijven was voor het maken van grafische weergaven die werden gebruikt om rapporten te illustreren. Hoewel Excel vandaag de dag nog altijd op grote schaal wordt gebruikt, moeten we niet vergeten dat bedrijven ooit niets anders hadden om grafieken te maken. Een fundamenteel verschil tussen de huidige datavisualisatie en de datavisualisatie van voor 2000 is de bedoeling achter de grafiek. Vóór 2000 werd de grafiek geproduceerd met de bedoeling om er verslag over uit te brengen. De visualisatie is gemaakt voor rapportagedoeleinden. Vragen van de ontvanger werden asynchroon behandeld.
De ERP-fase: de essentiële gegevens van het bedrijf worden gecentraliseerd
Rond het begin van de jaren 2000 werd Enterprise Resource Planning (ERP)-software populair en konden bedrijven hun gegevens centraliseren. Dit is een essentiële stap in het verbinden van verschillende disciplines binnen het bedrijf. Verschillende gegevensbronnen worden koppelbaar, waardoor de noodzaak om ze te analyseren en te interpreteren wordt benadrukt. Ik ben van mening dat deze centralisatiebeweging de opkomst van Business Intelligence (BI) markeert. De leveranciers van ERP-oplossingen (SAP, Oracle) grijpen deze kans aan en bieden geïntegreerde BI-oplossingen aan die vandaag de dag nog altijd relevant zijn (zie Magic Quadrant van Gartner hieronder). Door hun tentakels uit te breiden naar alle gebieden van het bedrijf, is de hoeveelheid gecentraliseerde gegevens alleen maar toegenomen, wat het belang van BI versterkt.
De ontwikkeling van stand-alone oplossingen van dataviz
De toenemende hoeveelheid data heeft geleid tot de ontwikkeling van onafhankelijke visualisatieoplossingen die krachtiger zijn dan de oplossingen die binnen softwarepakketten worden aangeboden. Laten we eerst even stilstaan bij het feit dat Tableau (een van de eerste standalone oplossingen op de markt, al sinds 2003) ontstaan is uit een project om grote hoeveelheden data te visualiseren. Pat Hanrahan en Chris Stolte ontwikkelden VizQL (Visual Query Language), een taal die het mogelijk maakte om grote databases grafisch te bevragen. De behoefte aan autonome visualisatieoplossingen is daarom de noodzaak om grote hoeveelheden data te onderzoeken.
Datavisualisatie: uitdagingen en kansen in bedrijven
Hoewel datavisualisatie zijn adelbrieven heeft verdiend en ondanks de democratisering van tools zoals PowerBI (Microsoft), heeft Excel nog altijd een mooie toekomst voor zich. Veel rapportagetaken worden vandaag de dag nog steeds uitgevoerd in Excel. Deze alomtegenwoordigheid kan worden verklaard door de uitrusting van de werkplekken. In de loop der jaren is Excel een “universele taal” geworden die iedereen van zijn eerste stappen met een computer heeft kunnen leren.
Iedereen heeft gemerkt dat data-gerichte strategieën erg hip zijn geworden. Eigenlijk beweren veel bedrijven dat ze “data driven” zijn, d.w.z. dat ze hun beslissingen baseren op gegevensanalyse. De mogelijkheden van datavisualisatie zijn dus nauw verbonden met de productie van gegevens in bedrijven.
Er zijn natuurlijk tal van mogelijkheden rond dataviz en ze lijken mij voort te komen uit de uitdagingen die de data zelf met zich meebrengen. Ik onderscheid er drie.
- De belangrijkste uitdaging voor bedrijven vandaag de dag is (nog altijd) om de praktijk van datavisualisatie te verplaatsen van rapportage naar datamining. Het ontketenen van de kracht van gegevens betekent het gebruik ervan om waarde te creëren. Maar al te vaak zijn visualisaties banaal en doen ze niets meer dan dag na dag indicatoren rapporteren. Samenvattend zou men dus kunnen dat bedrijven nog lang niet allemaal een data “cultuur” hebben aangenomen.
- De tweede uitdaging ligt in de mogelijkheid om de datavisualisatie voor iedereen beschikbaar te maken. Dit is wat Microsoft probeert te doen door de PowerBI-licentie aan te bieden. Daarbij zal elke werknemer in staat zijn om “met gegevens te spelen” en zelf op zoek te gaan naar informatie die van invloed kan zijn op zijn werk.
- De derde uitdaging is prozaïscher en gaat om gegevens te verzamelen en te centraliseren om de verkenning ervan mogelijk te maken. Datavisualisatie heeft alleen zin als het mogelijk is om hoeveelheden gegevens te onderzoeken die verder gaan dan wat mogelijk is met klassieke kantoorautomatiseringstools.
Gegevensvisualisatie: beschikbare hulpmiddelen
We kunnen moeilijk doen alsof we een volledig overzicht van alle dataviz-oplossingen kunnen geven; ten eerste omdat ik ze niet allemaal ken, ten tweede omdat anderen dat al wel doen. Laat me daarom beginnen met het Magic Quadrant van Gartner (hieronder). Deze benchmarking-tool wordt één keer per jaar gepubliceerd en evalueert verschillende soorten IT-oplossingen, waaronder oplossingen voor gegevensvisualisatie. De benchmark is onderverdeeld in 4 categorieën:
- leiders
- uitdagers
- visionairs
- nichespelers
De 4 bedrijven die deze benchmark domineren zijn :
- Microsoft met PowerBI
- Tableau
- Qlik
- ThoughtSpot
PowerBI
PowerBI is de oplossing van Microsoft. Ze wordt gratis aangeboden aan kopers van een Office 365-licentie. Dit is een zeer slimme strategie van Microsoft, die van PowerBI een “universele taal” wil maken binnen het bedrijf op dezelfde manier als Excel (zie hierboven). Het gebruiksgemak van PowerBI is behoorlijk onthutsend, vooral als het gaat om de meest complexe visualisaties. PowerBI biedt een (crowdsourced) bibliotheek van visualisatiemodellen die mogelijkheden bieden om de routine van histogrammen en andere taartdiagrammen te doorbreken. Een van de nadelen van PowerBI (wat ik echt afschuwelijk vind) is de onmogelijkheid om dashboards te exporteren als png- of jpeg-bestanden.
Tableau
Tableau heeft terrein verloren ten opzichte van PowerBI, maar blijft naar mijn mening de meest geavanceerde oplossing op de markt, de meest complete oplossing ook op het vlak van de mogelijkheden die de gebruiker wordt geboden. Deze speelruimte komt echter ten koste van een grotere complexiteit, vooral voor de toepassing van complexe visualisaties (Sankey-diagrammen, JoyPlot, …). Waar PowerBI u een kant-en-klare oplossing biedt, dwingt Tableau u om zijpaden te nemen. Naar mijn mening blijven de functionaliteiten van Tableau veel geavanceerder dan die van PowerBI, vooral in het maken van dashboards die buiten het gewone vallen (niveau 3 en 4 van de indeling). Tableau wilde al heel vroeg een trouw publiek bereiken door het ter beschikking stellen van 2 vehikels: Tableau Public, dat u toestaat om Tableau gratis te gebruiken zolang u de geproduceerde visualisaties beschikbaar stelt aan iedereen; IronViz, een datavisualisatiewedstrijd waaraan ieder jaar enkele honderden programmeurs (waaronder ikzelf) meedoen. In 2020 heeft Tableau een virtuele galerij (Engelse site) geopend, die de mooiste visualisaties van de afgelopen jaren bijeenbrengt (Data Art).
Praktische tips om aan de slag te gaan met datavisualisatie
Als ik u een gouden raad zou moeten geven, zou het zijn om nooit meer grafieken in Excel te maken en een professionele dataviz tool (of PowerBi of een andere) te gebruiken. Als u een student bent, vergeet dan niet dat veel datavisualisatie-software gratis kan worden gebruikt.
Waarom ik u aanraad geen grafieken meer in Excel aan te maken?
De onderliggende logica voor het maken van een grafiek is eigenlijk heel anders tussen Excel en datavisualisatie-software. Dit leidt ertoe dat de gegevens moeten worden “geroteerd”. Bovendien heb ik de neiging om te geloven dat door zo snel mogelijk te beginnen met het visualiseren van data in een ad hoc-oplossing, u het beter onder de knie zult krijgen en het verschil zal maken met uw collega’s. De arbeidswereld is een jungle; u kunt net zo goed de koning van de jungle zijn. Persoonlijk heb ik mijn zoon dataviz voorgesteld en hij vertelt over zijn ervaringen in zijn YouTube-video’s (zie hieronder).
Is het nodig om een opleiding in dataviz te volgen?
Om de basis te krijgen, denk ik eerlijk gezegd dat u geen cursus hoeft te volgen. Bovendien heeft elke oplossing forums en tutorials die nuttig zijn om ” voet aan wal te krijgen”. Aan de andere kant heeft u voor de overgang van het ene naar het andere niveau (vooral de overgang van niveau 2 naar niveau 3) volgens mij begeleiding nodig. Het lijkt me nogal ingewikkeld om het niveau te halen zonder een mentor of in ieder geval een trainer die u snel naar de beste paden kan leiden. In gecompliceerde situaties vind ik het nuttig om te kunnen vertrouwen op iemand die tijd bespaart door u in de juiste richting te wijzen.
Hoe gaat u zelf nu verder?
Mijn ervaring leert me dat het moeilijk is om zonder echte motivatie alleen verder te komen. In mijn geval heb ik een competentieniveau bereikt door deel te nemen aan IronViz in 2020. Het uitgebreide onderzoek dat ik moest doen en de oplossingen die ik moest ontwikkelen, hebben me enorm geholpen. Ook al won ik niet, ik kwam sterker uit deze ervaring zoals ik in deze blog toelicht.
Conclusies
Datavisualisatie is nu een vaardigheid op zich geworden in bedrijven, of zelfs een beroep voor degenen die het meest “data driven” zijn. De toename van de macht van gespecialiseerde software en de sterke beweging van Microsoft met PowerBI geven hoop dat er nieuwe praktijken ontstaan binnen bedrijven. Het is redelijk om te denken dat Excel, als visualisatietool, gedoemd is. Maar voordat we van datavisualisatie een motor van digitale transformatie maken, zullen we nog vele jaren moeten wachten. Inderdaad, dataviz heeft alleen zin als er gegevens beschikbaar zijn en als er een “cultuur van insight” ontstaat, zelfs in de kleine en middelgrote ondernemingen.
Geplaatst in Big data.