26 Januar 2022 1651 words, 7 min. read Latest update : 15 März 2022

ETL: Vergleich, Auswahlkriterien, Beratung [Leitfaden 2022]

By Pierre-Nicolas Schwab PhD in marketing, director of IntoTheMinds
ETL: Extract – Transform – Load. Allein diese 3 Worte fassen die Funktionalitäten zusammen, die Softwarelösungen dieser Familie erfüllen müssen. DESHALB ist ein ETL-Tool eine Software, die Datenaufbereitung vereinfacht, lokal oder in der Cloud. Letztere konzentriert sich auf die Realisierung […]

ETL: Extract – Transform – Load. Allein diese 3 Worte fassen die Funktionalitäten zusammen, die Softwarelösungen dieser Familie erfüllen müssen. DESHALB ist ein ETL-Tool eine Software, die Datenaufbereitung vereinfacht, lokal oder in der Cloud. Letztere konzentriert sich auf die Realisierung von 3 Arten von Operationen auf Daten: (1) Extrahieren von ihnen aus Dateien unterschiedlicher Art; (2) sie umzuwandeln und anzureichern, um sie für die Ausbeutung vorzubereiten; (3) erneutes Laden in ein anderes System, damit sie bewertet werden können.

Die grafische Oberfläche von ETL-Lösungen vereinfacht diese Vorgänge. Diese Lösungen basieren auf „Boxen“, die zusammengebaut werden können, um das gewünschte Ergebnis zu erzielen. Es handelt sich also um eine „No Code“-Lösung, die in (fast) alle Hände gegeben werden kann.

In diesem Artikel erkläre ich alles, was Sie über ETL wissen müssen und gebe Ihnen meine persönliche Meinung, um Ihnen bei Ihrer Wahl zu helfen. Dieser Artikel ist nicht kommerziell (ich verkaufe kein ETL), sondern stellt nur eine objektive Sichtweise dar.


Zusammenfassung


ETL: Was ist ihr Ursprung

Die Geschichte der ETLs begann in den 1980er Jahren. Damals erschienen spezielle Softwarelösungen, um Datenströme zwischen „einfachen“ Datenbanken zu verwalten. In den 90er Jahren wurde eine Umstellung vorgenommen, um sie an Data-Warehouses (DWH) anzupassen.

In den 2000er Jahren wurde der Markt strukturierter und ETLs wurden in zwei Kategorien eingeteilt:

  • ELTs: Einige ETLs werden zu ELTs und konzentrieren sich ausschließlich auf die Aufgaben „E“ und „L“ (Extract and Load), wobei das „T“ der Datenbank-Engine überlassen wird. Beispiele: Talend, Matillion usw.
  • Die vollständigen ETLs: Weitere „T“-Funktionalitäten wurden hinzugefügt: Datenbereinigung, etwas komplexere Joins. Einige dieser Tools existieren auch 2022 noch. Zum Beispiel IBM Data Stage, Ab Initio.

Es war ungefähr 2010 als wir eine Entwicklung von ETLs sahen, um eine Situation zu bewältigen, in der es keine Datenbank-Engine „hinter“ gibt. Von da an wurden ETLs ein wenig veraltet. Dies ist die Ära des „Data Lake“. Der Data Lake ist ein neues Konzept, das für Geschäfts-/Datenanalysten und Datenwissenschaftler mit fortgeschritteneren Datenanforderungen optimiert wurde.

Dank des Data Lake werden „vollständige ETLs“ zu dem, was ich ETL+ nenne. Neue Funktionalitäten werden ihnen hinzugefügt, damit sie komplexere Dinge tun können: Text-Mining, Data-Mining (machine learning), AI, Big Data usw. In dieser Kategorie finden wir die meiner Meinung nach besten ETL-Tools: Anatella und Alteryx.


ETLs auf dem Markt

Es gibt viel zu viele ETLs auf dem Markt, um sie alle zu nennen. In den folgenden Absätzen werde ich 3 erwähnen, die ich täglich verwende: Anatella, Alteryx und Tableau. Ich hätte Talend hinzufügen können, die wahrscheinlich bekannteste Lösung auf dem Markt, aber ich benutze es nicht viel und bin kein großer Fan davon (vor allem wegen der hiererwähnten Performance-Probleme).

Erwähnen wir auch, dass Unternehmen wie G2 Benchmarks von ETL-Lösungen auf dem Markt veröffentlichen. Wie die untenstehende sind Positionskarten praktisch, um die verschiedenen Lösungen auf dem Markt zu beurteilen.

Benchmark ETL

Eine Positionierungskarte, die von der Firma G2 auf ihrer Website vorgeschlagen wird. Diese Karten sind hilfreich, weil sie es ermöglichen, verschiedene Lösungen nach festgelegten Kriterien übersichtlich zu positionieren. (Quelle: G2-Website)


Funktionalität Nr. 1: Extract

Die erste Funktion von ETLs besteht darin, Daten von dort zu extrahieren, wo sie sich befinden. Der Begriff „Extract“ ist hier vielleicht einschränkend, weil es um die Fähigkeit geht, eine Datei zu öffnen und die darin enthaltenen Daten für die Verwendung in nachfolgenden Prozessen verfügbar zu machen.

Das Aufkommen von SaaS-Lösungen und die Demokratisierung von Cloud-Speichern haben die Datenextraktion zu einer Herausforderung gemacht. Noch nie gab es so viele verschiedene Datenquellen und Formate. Einige proprietäre Formate sind so spezialisiert, dass eine Handvoll ETLs sie nur vorschlägt. Was auch Spaß macht, ist die Möglichkeit, „konkurrierende“ Dateien zu lesen. Anatella hat zum Beispiel eine „Box“, die Alteryx-Dateien lesen kann.

Lassen Sie uns nicht einmal über unstrukturierte Dateien (pdf, word) sprechen, die eine echte Herausforderung darstellen und Transformationen erfordern, um ausgenutzt zu werden (siehe nächster Absatz)..

ETL Anzahl der „Boxen“ zur Eingabedatenverwaltung Anmerkungen
Alteryx 2020.1.5.25447 4
Tableau Prep 57 Die Liste der von Tableau Prep unterstützten Formate ist wirklich beeindruckend.
Anatella 2.38 37 Anatella verarbeitet auch unstrukturierte Eingabeformate, was manchmal sehr nützlich sein kann.

 


Funktionalität Nr. 2: Transform

Selbst wenn Sie die beste Lösung der Welt haben, um Daten zu extrahieren, ist es nutzlos, wenn Sie damit nicht machen können, was Sie wollen. Insofern unterscheiden sich einige ETLs deutlich durch die Anzahl der verfügbaren Funktionen (die berühmten „Boxen“). Meiner Meinung nach sind die „Transform“-Funktionen diejenigen, die einem ETL den größten Mehrwert verleihen.

Ich überblicke die Anzahl der verfügbaren Boxen, um die Daten in der folgenden Tabelle zu „transformieren“. Ich habe die „Boxen“ gezählt, deren Funktionalitäten in eine der folgenden Kategorien fallen: Aufräumen, Verbinden, Datenformatierung.

ETL Anzahl der verfügbaren Transformationen Anmerkungen
Alteryx 2020.1.5.25447 33 Die gezählten Kästchen gehören zu den Kategorien „Vorbereitung“, „Beitreten“, „Transform“ des Hauptmenüs. Bei manchen Kästchen im Menü „Zubereitung“ kann man darüber streiten, ob sie „transformativ“ sind oder nicht, aber der Einfachheit halber habe ich sie alle berücksichtigt.
Tableau Prep 5 Tableau Prep ist in Bezug auf Transformationen sehr einfach. Es scheint ein Datenvorbereitungstool zu sein, dessen einziger Zweck darin besteht, Visualisierungen mit Tableau bereitzustellen. Wenn Berechnungen durchgeführt und Variablen transformiert werden müssen, würden wir stattdessen die Berechnungsfelder in Tableau verwenden. Es geht also nicht mehr um No Code.
Anatella 2.38 50 Zweifellos die reichhaltigste Lösung in Bezug auf den Funktionsumfang für Transformationen.

 


Bestimmte Transformationsmerkmale können den Unterschied zwischen 2 ETLs ausmachen

Meiner Meinung nach liegt der Unterschied zwischen 2 ETLs in den Datentransformationsfunktionen. Die Programmierer werden mir sagen, dass dies nicht wichtig ist, aber ich glaube nicht. Ein ETL ist ein Low Code (oder No Code) Tool und soll daher die Arbeit von nicht-technischem Personal vereinfachen. Die Anzahl der nativ verfügbaren Features ist daher in meinen Augen ein wesentliches Kriterium.

Ich lade Sie zum Beispiel ein, diesen Artikel zu lesen, der dem Fuzzy-Matching gewidmet ist. Je nach verwendetem Tool ist der Fuzzy-Matching mehr oder weniger kompliziert einzurichten. Wer jedoch bereits Datenbanken abgeglichen hat, weiß, wie zeitaufwändig Qualitätsprobleme sein können. Eine native Fuzzy-Matching-Funktion (insbesondere, wenn verschiedene Algorithmen verfügbar sind) ist ein echtes Plus.


Funktionalität Nr. 3: Load

Von den 3 Buchstaben in „ETL“ scheint mir das „L“ am wenigsten kritisch zu sein. Das Wichtigste für ETL sind ausreichende Exportmöglichkeiten in Standard-Austauschformate. Tatsächlich ist die Datenaufbereitung mit ETL-Tools oft nur der Ausgangspunkt für andere Prozesse (prädiktive Modellierung, Data Mining, Datenvisualisierung), die in spezialisierten Lösungen durchgeführt werden. Diese Lösungen haben immer Eingangsanschlüsse.

Wenn der Datenaufbereitungs-/Transformationsprozess kontinuierlich läuft, ist die Situation etwas anders. In diesem Fall kann es interessant sein, Exportmöglichkeiten in Eigentümerformate zu haben. Anatella schlägt beispielsweise einen Export im proprietären Format von Tableau (.hyper) vor, was Zeit beim Auslesen der Daten spart. Dadurch werden Probleme beim Import der Daten in eine Drittlösung vermieden.

ETL Anzahl der verfügbaren Ausgabeformate Anmerkungen
Alteryx 2020.1.5.25447 5
Tableau Prep 3 Die Ausgabeformate sind minimal. Tatsächlich ist Tableau Prep als Tool zur Vorbereitung von Daten für Visualisierungen mit Tableau konzipiert.
Anatella 2.38 27 Auch hier stehen viele Ausgabeformate zur Verfügung, sogar zu sehr exotischen oder wenig genutzten Designs. Wenn Ihnen einer davon wichtig ist, könnte dies ein starkes Argument für Ihre Entscheidung sein.

Zusätzliche Merkmale

Wie im Abschnitt „Geschichte“ erläutert, haben sich ETLs so entwickelt, dass sie bestimmte Funktionalitäten enthalten, die über den spezifischen Rahmen des Diagramms „Extract – Transform – Load“ hinausgingen. Dies ist bei Analyse- oder Visualisierungsfunktionalitäten der Fall. Das „ETL+“, das sie vorschlägt, verdient Beachtung.

Tatsächlich sind diese zusätzlichen Funktionen, die im ETL-Tool angeboten werden, keine Spielereien, sondern Booster. Sie ermöglichen es Ihnen, den Analyseprozess kurzzuschließen, indem Sie bestimmte Schritte im Datenvorbereitungsprozess antizipieren.

Sie müssen Ihre Bedürfnisse im Voraus definieren, um den Wert solcher Funktionen zu schätzen. Einige von ihnen mögen tatsächlich anekdotisch sein und werden für Sie nicht nützlich sein. Passen Sie also auf, nicht in die Marketingfalle zu tappen und uninteressante Komponenten zu kaufen.

Als Beispiel sind hier einige der zusätzlichen Funktionen, die ich an der Anatella-Lösung am meisten schätze:

  • NLP: Dieses Feature wurde ursprünglich für mich entwickelt (im Rahmen meiner Forschungsarbeit zur Viralität auf LinkedIn).
  • Spracherkennung: nützlich, wenn Sie mit unstrukturierten Daten arbeiten.
  • Visualisierungen mit R: Anatella bettet R-Code ein, der es ermöglicht, einfache Visualisierungen schnell zu erstellen. Diese Visualisierungen können verwendet werden, um eine erste Vorstellung von den Daten zu bekommen und Qualitätskontrollen durchzuführen. Ich verwende sie, um zu überprüfen, ob bei der Datenaufbereitung keine Daten verloren gegangen sind.

Welches ETL-Tool wählen?

Sie müssen also die ETL auswählen, die Ihren spezifischen Anforderungen am besten entspricht. Das ist klar. Jede ETL-Lösung hat ihre Besonderheiten, und die Vergleiche, die ich oben erkannt habe, sind nur ein Schlüssel zum Lesen unter anderen.

Über den Funktionsumfang hinaus sollten Sie auch die Geschwindigkeit der Datenaufbereitungsprozesse berücksichtigen. Ich habe hier einen Benchmark von 4 Tools realisiert, und die Unterschiede in der Bearbeitungszeit waren beträchtlich.

Letztendlich denke ich, dass es zwei wesentliche objektive Kriterien zu berücksichtigen gilt:

  • die Funktionalitäten
  • Geschwindigkeit

Hinzu kommen eher subjektive Aspekte, wie die Produkt-Roadmap des Verlags und dessen Kundenorientierung. Aus dieser Sicht geht meine Präferenz ganz klar zu Anatella. Das Unternehmen dahinter ist sehr reaktionsschnell und zögert nicht, spezifische Lösungen für Ihre Bedürfnisse zu entwickeln. Ich bezweifle, dass Unternehmen wie Talend oder Alteryx dasselbe tun.



Posted in Data & IT.

1 comment

  1. Wir möchten verschiedene Tarifsysteme vergleichen. Interessant, dass man bei ETL Funktionalität und Geschwindigkeit vergleichen sollte. So finden wir hoffentlich das Richtige.

Post your opinion

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert