Migratie in Europa: interactieve visualisatie in Tableau

Migratie in Europa: interactieve visualisatie in Tableau

De migratiestromen naar EU-landen op een aantrekkelijke manier weergeven, dat is wat wilde bereiken met Tableau Software. Het doel was eenvoudig, maar het ‘hoe’ was dat helemaal niet. Ik moest er enkele dagen over nadenken om de juiste oplossing en het juiste ontwerp te vinden.

Hieronder meer uitleg daarover, samen met de modus operandi om het na te doen.

Inleiding

De migranten (vooral die van buiten de Europese Unie komen) zijn het onderwerp van vele mythen en fantasieën. Ik wilde wat licht werpen op dit sterk polariserende thema door gegevens te visualiseren.

Mijn doel was om de realiteit van de migrantenstromen op een speelse en informatieve manier in beeld te brengen.


Resultaten

U kunt het resultaat hieronder zien of interactief via deze link (Engelse site)

De computergrafiek geeft 3 soorten informatie weer:

  • Weergave van de geografische herkomst van alle migranten in een land van de Europese Unie (periode 2009-2018).
  • TOP 8 van de landen die het meest bijdragen aan deze stroom
  • Verdeling in man/vrouw per land van herkomst

Om het land te wijzigen, selecteert u gewoon een ander uit de keuzelijst. De gegevens zijn onvolledig voor Frankrijk en ontbreken voor sommige landen, zoals Duitsland, Portugal of Griekenland.


Herkomst en voorbereiding van de gegevens

De gegevens zijn afkomstig van Eurostat en kunnen hier (Engelse site) worden geraadpleegd. Ze bevatten de volgende informatie:

  • Code van het land waarvan de migrant onderdaan was op het moment van de eerste aanvraag tot toelating (“first time applicant” in Eurostat-jargon)
  • Code van het land van bestemming binnen de Europese Unie
  • Gender
  • Aantal migranten

Eurostat geeft u de mogelijkheid om te werken met de landencodes, de volledige naam van het land of beide. Ik koos voor de landcode. Het gaat hier o een constante die wordt geregeld door een ISO-norm. De namen van de landen zijn dat niet, wat mij verplicht zou hebben om ze met elkaar te koppelen, zoals ik al eerder toelichtte in dit artikel over fuzzy matching.

Om de landcodes te koppelen aan de landnamen en hun respectievelijke coördinaten maakte ik gebruik van een andere dataset, die het mogelijk maakt om de breedtegraad en de lengtegraad direct te koppelen. Het zou mogelijk zijn geweest om de namen van de landen rechtstreeks te koppelen aan hun coördinaten in de tabel. Maar om ook hier problemen met de erkenning van landnamen te voorkomen, verkoos ik het aantal koppelingen binnen Tableau tot een minimum te beperken.

De gegevens werden voorbereid met Anatella. Voor meer informatie over deze ETL verwijs ik u naar andere artikelen die ik over dit onderwerp schreef, bijvoorbeeld de vergelijking met Alteryx of Tableau Prep.


Methode nr. 1

Het gebruik van landcodes gaf me het idee om een visualisatie van vliegtuigvertragingen per luchthaven te reproduceren die ik hier (Engelse video) enkele jaren geleden had gezien. Het resultaat was zoals verwacht en maakte me bewust van een interessante beperking in de datavoorbereiding. Het is nodig om de gegevens te exporteren in csv-formaat en niet in .hyper of .tde-formaat. De methode vereist immers het leggen van een koppeling om de gegevens te herhalen, wat niet mogelijk is met een hyper- of tde-bestand. Deze “herhaling van data” is de zwakte van deze methode en wel hierdoor:

de koppeling die met hetzelfde bestand wordt gemaakt, maakt het mogelijk de gegevens te herhalen bij het begin- en eindpunt. Het is perfect om een lijn te trekken tussen 2 punten en te werken op basis van kleur of lijngrootte om bijvoorbeeld een volume weer te geven. Maar als u veel lijnen moet trekken, moet u het volume op een andere manier weergeven met het risico dat u de gebruiker verliest. In dit geval koos ik voor cirkels waarvan de diameter de grootte van het aantal migranten weergeeft. Vanzelfsprekend worden deze cirkels herhaald bij de oorsprong en bij de bestemming, wat een ander soort verwarring met zich meebrengt (zie de animated gif hieronder).

Het toepassen van een filter op de variabele “route-identificatie” biedt geen oplossing, omdat deze van toepassing is op de 2 bovenliggende visualisaties. Daarom heb ik methode nr. 2 ontwikkeld.

Te onthouden voor methode 1

  • Vereist te werken met een bronbestand in csv of xls (dus problematisch voor grote hoeveelheden gegevens)
  • Trekt rechte lijnen tussen herkomst- en bestemmingspunten
  • Herhaalt gegevens aan het begin- en eindpunt, wat negatieve visualisatie-effecten kan veroorzaken

Methode 2

Methode 2 is gebaseerd op de eerder uitgevoerde voorbereidende werkzaamheden. Het idee is om een andere techniek te gebruiken om de lijnen tussen het begin- en eindpunt te visualiseren. Dit maakt het mogelijk om de cirkels die zijn gemaakt vanaf methode 1 over elkaar heen te leggen en vervolgens eenvoudigweg “route-identificatie” te gebruiken als een filter om de cirkels die zich op het beginpunt opstapelen te vermijden.

Om de lijnen (krommen deze keer) tussen het begin- en eindpunt te maken bestaat de truc erin om van de functies “Makepoint” en “Makeline” in Tableau gebruik te maken (beschikbaar sinds de update van Tableau 2019.1). Ik maak eerst 2 afzonderlijke verbindingen om herkomst en bestemming te scheiden (zie hieronder).

Vervolgens maak ik een berekende variabele “destination point” met de functie Makepoint (lengte- en breedtegraad van de bestemming).

Ik herhaal de bewerking voor de berekende variabele “origin point”. Dan volstaat het om Makeline (origin point, destination point) te gebruiken om de corresponderende lijn te trekken.

Vervolgens hoeft u de 2 grafieken gewoon op elkaar te leggen om een aantrekkelijke visualisatie te verkrijgen.


Dashboarding

De rest van het werk is gewoon het afwerken van het dashboard. Nadat ik ervoor gekozen had om de kaart op een zwarte achtergrond te maken, heb ik deze kleur logischerwijze behouden voor het dashboard. Ik ben begonnen met het toevoegen van een ranglijst van de top 8-landen van herkomst.

Omdat de gegevens van Eurostat ook het geslacht van de migranten bevatten, leek het me interessant om deze informatie visueel weer te geven. Bovendien zorgt het toevoegen van een vleugje kleur ? dat de informatie verre van oninteressant is. U merkt dat de stromen verre van homogeen zijn. In sommige landen is het ene geslacht soms dominant aanwezig tegenover het andere. IJsland ontvangt bijvoorbeeld voornamelijk Poolse migranten die voor 2/3 uit mannen bestaan. Ik bezocht IJsland 2 keer en weet dat de economie van het land te maken heeft met enerzijds visserij en anderzijds toerisme.

Tot slot heb ik een filter per jaar toegevoegd, waarmee u de evolutie van de migratiestromen over een periode van 10 jaar, d.w.z. van 2009 tot 2018, kunt visualiseren.


Dankwoord

Ik wil graag van de gelegenheid gebruik maken om Marc Reid (Engelse site) te bedanken voor zijn hulp bij de contextuele filter, waarmee ik problemen ondervond. Ook een dankwoord voor de interessante discussie over de keuze van de kleuren voor het mannelijke en vrouwelijke geslacht (zie hier [Engelse site] voor meer info).



Afbeeldingen: shutterstock


Geplaatst in Data en IT.