Das Datenmanagement entwickelt sich stetig weiter, geprägt von der weitverbreiteten Einführung datengestützter Entscheidungsfindung, der Cloud Modernisierung und der Etablierung von KI-Technologien.
Trends wie Echtzeitanalysen, moderne Cloud-Datenbanken, Data Lakehouses, Data Fabric und Data Mesh beflügeln die Maßnahmen und Budgets in allen Branchen.
Mit der steigenden Nachfrage nach datengesteuerten Lösungen steigt auch der Bedarf an Data Engineers, die die Infrastruktur für verschiedene datengestützte Anwendungen und Analysen entwerfen, aufbauen und warten. Doch das Erlernen neuer Fähigkeiten und Kompetenzen kann in diesem sich ständig weiterentwickelnden Umfeld überwältigend erscheinen.
Dateningenieure müssen sich bewusst machen, dass sie andauernd lernen und experimentieren müssen – genauso wie sich die Datenmanagementsysteme regelmäßig weiterentwickeln. Beschäftigte in diesem Bereich sollten sich auf einige grundlegende Bereiche konzentrieren, um Kernkompetenzen aufzubauen, die sich über die Zeit bewähren.
Diese fünf Fähigkeiten sollten Data Engineers besitzen:
1. Datenmodellierung, Architektur und Warehousing
Die Hauptaufgabe eines Dateningenieurs besteht darin, riesige Datensätze zu verschieben, zu modellieren und zu verwalten, damit sie Data Scientists verwenden können: Sie entwickeln Algorithmen und mathematische Modelle, um aus den gesammelten Daten Prognosen, Muster und Trends abzuleiten. Selbst ein kleines Unternehmen erzeugt heute kontinuierlich große Datenmengen in verschiedenen Formaten, die gespeichert, verschoben und umgewandelt werden müssen. Die Fähigkeit, eine Datenarchitektur zu entwerfen und zu optimieren, um aktuelle und zukünftige Anforderungen an die Datenintegration, -speicherung, -verarbeitung und -nutzung zu unterstützen, gilt als wichtige Kompetenz.
Auch die Auswahl einer optimalen Datenintegrationstechnologie, die auf sich ändernde Geschäftsanforderungen reagiert und komplexe Geschäftsanwendungen verwalten kann, zählt zu den wichtigsten Kompetenzen.
Durch ein umfassendes Verständnis kann sich ein Data Engineer in seinem Berufsfeld besonders positiv hervortun. Er sollte den gesamten Lebenszyklus der Daten kennen – von der Aufnahme über die Verarbeitung bis hin zur Analyse sowie der Logik, die dahintersteckt. Auch die Anforderungen der Geschäftsanwender an die Daten müssen bekannt sein. Hinzu kommt ein Verständnis der Grundsätze der Datenmodellierung, inklusive der Definition der Struktur und der Beziehungen zwischen den Datensätzen, um die richtigen Geschäftseinblicke zu erhalten. Darüber hinaus erfordert der Beruf Wissen in puncto Datenspeicher- und Data Warehouse-Frameworks, um die richtigen Cloud- und On-Premises-Datenbanken für geschäftlichen Anwendungsfälle aufzubauen. Letztendlich sollte ein Date Engineer stets die Kosten und Produktivität (ROI) der Datenmanagement-Ökosysteme im Auge behalten.
2. Cloud-Datenverarbeitung mit hohem Volumen und in Echtzeit
Der Großteil der Speicherung, Verarbeitung und Analyse von Big Data findet aufgrund der Größe und Geschwindigkeit in der Cloud statt. Ein Data Engineer sollte jegliche Cloud-Speicheroptionen, Rechenkapazitäten und Netzwerkgrundlagen der wichtigsten Cloud-Technologien (Microsoft Azure, Amazon Web Services und Google Cloud) kennen und verstehen.
Solide Big-Data-Grundlagen und Fachwissen über Big-Data-Technologien sind entscheidend, um Streaming- und verteilte Systeme zu verstehen, die es schaffen, strukturierte, halb- und unstrukturierte Daten in Echtzeit und in Stapelverarbeitung zu verarbeiten.
Die Aufgabe eines Dateningenieurs besteht darin, eine große Menge an eingehenden Daten aufzunehmen, zu speichern, zu organisieren, zu finden, abzurufen, aufzubereiten und zu verarbeiten, um geschäftsrelevante Erkenntnisse zu gewinnen. Das beinhaltet auch verschiedene Datenmanipulationsvorgänge (zum Beispiel Datensätze filtern, sortieren, verbinden, aggregieren, pivotieren und aufteilen).
Den Großteil dieser Arbeit machen Datentransformationsprozesse wie Extrahieren, Transformieren, Laden (ETL), Extrahieren, Laden, Transformieren (ELT) und Reverse ETL aus. Der springende Punkt ist, dass sich die Datenformate, -quellen und -ziele nicht nur erweitern, sondern auch verändern. Beim Integrieren einer neuen Anwendung oder eines neuen Tools in den Tech-Stack müssen Datenspezialisten neuen Code und Pipelines erstellen, um die eingehenden Daten zu verbinden. Dies kostet viel Zeit und garantiert nicht, dass die Pipeline stabil ist oder einen langfristigen Zweck erfüllt.
Data Engineers heben sich von der Masse ab, indem sie sich über moderne, langlebige Datenintegrationslösungen informieren. Sie sollten in der Lage sein, eine Infrastruktur zu entwerfen, die auf sich ändernde Geschäftsanforderungen reagiert, Kernaufgaben der Datenintegration – wie Datenermittlung, -mapping, -validierung, -bereinigung und -anreicherung – automatisiert und keine Abstriche bei der Effizienz, den Kosten oder der Leistung macht.
3. Datenqualität und Governance
Moderne Data Engineers übernehmen die Verantwortung für die Genauigkeit, Vollständigkeit, Konsistenz und Aktualität der von ihnen verwalteten Daten. Sie sollten lernen, wie systematische Audits dabei helfen können, die Datenqualität zu bewerten und zu verbessern. Auch die Einhaltung von Data-Governance-Standards – wie die Datenabfolge und das Metadatenmanagement mit Datenkatalogen – spielt dabei eine Rolle, ebenso wie die Reduzierung von Datenschutz- und Sicherheitsrisiken.
4. Datenanalyse und nutzerzentrierte Visualisierung
Obwohl die Datenanalyse nicht unbedingt zum primären Fachgebiet zählt, besteht die Aufgabe des Dateningenieurs darin, große Datensätze aufzuschlüsseln, um Erkenntnisse zu gewinnen, die Datenanalysten und -Wissenschaftlern bei ihrer Arbeit helfen. Zunächst sollten sie sich gründliche Kenntnisse der Datenanalysetechniken aneignen, einschließlich der deskriptiven, diagnostischen, prädiktiven und präskriptiven Analyse. In Kombination mit Fähigkeiten in der Datenvisualisierung kann dies dazu beitragen, effektiver mit Geschäftsanwendern zusammenzuarbeiten. Das verbessert auch die Datenzugänge, Interpretationen und Kommunikation von Erkenntnissen.
5. KI und maschinelles Lernen
Data Engineering tritt in eine neue Phase ein, in der KI-gestützte Datenintegrationslösungen einen Großteil der Arbeit übernehmen. In diesem Zusammenhang ändern sich die Erwartungen an Dateningenieure zwangsläufig.
So zählte beispielsweise die Beherrschung von Programmiersprachen wie Python, SQL, NoSQL, Java, Scala, R und LINUX Command traditionell zum Pflichtprogramm. Allerdings gestalten No-Code-, Low-Code- und KI-gestützte Datenlösungen alltägliche Data-Engineering-Aufgaben deutlich einfacher, etwa die Erstellung automatisierter ETL-Workflows und Datenpipelines, Integrationen, Transformationen sowie Analysen großer Datensätze unabhängig von Struktur, Format und Umfang.
Neben einem allgemeinen Bewusstsein für Konzepte und Anwendungen von KI und maschinellem Lernen (ML) sollten sich ambitionierte Data Engineers von der Konkurrenz abheben, indem sie frühzeitig lernen, wie sie KI- und ML-Funktionen zur Automatisierung und Optimierung komplexer Workflows mit intelligentem Einsatz von Pro-Code und Low- oder No-Code nutzen können.
Sie sollten sich darüber informieren, wie sie mit KI-gestützter Datenintegration Zeit, Aufwand und Kosten sparen und sich von den täglichen Datenoperationen und Ad-hoc-Brandbekämpfungen befreien, Risiken mindern und den ROI ihrer Dateninvestitionen steigern können. Lösungen, die sich anpassen und mit Unternehmen wachsen, lohnen sich.
Der Erfolg des modernem Data Engineering liegt nicht in bestimmten Tools oder Sprachen, sondern im Aufbau eines tiefen Verständnisses der Datentechnik-Kernbereiche, die die Leistung beeinflussen. Gleichzeitig können die richtigen Tools und Lösungen den entscheidenden Unterschied bei den Datenmanagement-Ergebnissen ausmachen.
Autor: Dr. Martin Hebach, Senior Solutions Architect bei Informatica