Die Datenbestände einer Organisation steigen nicht nur kontinuierlich an – auch die verwendeten Technologien und Speicherorte werden zunehmend heterogen und komplex.
Bislang werden diese Daten aus den unterschiedlichen Domains in zentrale Datenspeicher wie ein Data Warehouse oder ein Data Lake eingespeist, damit sie dort gelagert und bei Bedarf aufbereitet und anschließend von Data Engineers, Data Scientists oder Business-Anwendern weiterverarbeitet werden können. Dieser zentrale, monolithische Ansatz stößt mit zunehmender Heterogenität aber immer mehr an seine „natürlichen“ Grenzen. Warum Architektur-Konzepte jetzt neu gedacht werden müssen und welche Vorteile hier dezentrale Ansätze bieten, verrät Otto Neuer, Regional VP bei Denodo.
Im Bereich der Datenmanagement bahnt sich ein Paradigmenwechsel an. Statt auf traditionelle zentrale Datenplattform-Architekturen, setzen Unternehmen zunehmend auf einen dezentralen, flexibleren Ansatz: Data Mesh.
Herausforderungen bei zentralen Datenplattformen
Diese neue Datenarchitektur könnte Data Warehouses und Data Lakes in Zukunft ablösen, insbesondere bei Unternehmen, die große Datenmengen sammeln und verarbeiten müssen. Denn mit zunehmender Größe und Komplexität ergeben sich in zentralen, monolithischen Datenarchitekturen eine Reihe inhärente Schwierigkeiten, die kaum effektiv zu lösen sind:
- Diskrepanzen zwischen den Datenteams: Die Daten werden von den Domain-orientierten Teams bereitgestellt und in den zentralen Datenspeicher eingespeist, allerdings fehlt ihnen oft das Verständnis dafür, wie diese von den Datenkonsumenten später verwendet werden. Dadurch kommt es zu Fehlern, fehlenden Daten oder die Datenkonsumenten können die verfügbaren Daten gar nicht erst verwenden. Die Folge: Frustrationen auf allen Seiten.
- Mangelnde Flexibilität: Je mehr Daten verfügbar sind, desto weniger ist es möglich, sie alle auf einer einzigen Plattform zu verwalten, die wachsende Anzahl an Datenquellen anzubinden sowie schnell und flexibel auf Veränderungen zu reagieren oder zu skalieren.
- Lange Wartezeiten: Unternehmen finden immer wieder neue Anwendungsfälle für ihre Daten. Allerdings müssen diese Daten für jeden neuen Use Case neu transformiert und aufbereitet werden. Entsprechend lange müssen die Datenkonsumenten jedes Mal auf die benötigten Daten warten.
Daten werden zu Produkten
Bei Data Mesh werden dagegen nicht alle Daten in einen gemeinsamen Speicher eingespeist. Stattdessen verbleiben sie in den jeweiligen Domains, aus denen sie stammen, und die entsprechenden Teams sind dafür verantwortlich, sie als Data Owner zu verwalten und für den Rest des Unternehmens in geeigneter Form als Data Product bereitzustellen. Der Vorteil dabei: die Domain-Teams kennen ihre eigenen Daten am besten und haben daher eine bessere Vorstellung davon, wie diese Daten aufbereitet und verwendet werden sollten. Dadurch verringert sich der Aufwand bei der Verwaltung von Daten erheblich, während die Produktivität steigt: Die Datenkonsumenten können autonomer arbeiten, da sie selbst jederzeit auf die benötigten Daten zugreifen und sie direkt weiterverarbeiten können, ohne lange Wartezeiten.
Allerdings birgt auch der Data-Mesh-Ansatz einige Risiken, so könnten beispielsweise Datensilos entstehen, wenn die Datenerzeuger über eine entsprechende Data Governance nicht zum Teilen der Data Products ermuntert werden. Überschneiden sich Daten von verschiedenen Domains könnte dies außerdem dazu führen, dass beide sich dieselbe Arbeit machen und die Daten als Data Product aufbereiten. Und ohne definierte Richtlinien und Standards werden Daten im Unternehmen nicht einheitlich verwaltet. Deshalb müssen Unternehmen bei der Implementation von Data Mesh einige Faktoren beachten:
- Daten als Produkte: Die von den Domains bereitgestellten Daten müssen für alle Datenkonsumenten leicht verständlich und nutzbar sein.
- Self-Service-Plattform: Damit die Datenkonsumenten auf die Data Products eigenständig zugreifen können, gleichzeitig Aufgaben wie das Identitätsmanagement, die Rückverfolgbarkeit und Datenintegration automatisiert und vereinfacht werden können.
- Federated Governance: Unternehmen müssen zentrale Anforderungen und Standards vorgeben, damit Datenkonsumenten die Data Products verschiedener Domains zusammenführen können und einheitliche Sicherheitsrichtlinien eingehalten werden.
Eine semantische Datenschicht – egal, wo die Daten dezentral liegen
Unternehmen, die in einer verteilten Datenarchitektur einen einheitlichen Zugang zu allen Daten, ein hohes Maß an Sicherheit sowie eine gemeinsame Ebene der Datenverwaltung erreichen wollen, sollten dafür auf Datenvirtualisierung setzen.
Datenvirtualisierung ermöglicht es den Domains, ihre Datensätze schnell einzusetzen, indem sie virtuelle Modelle der Daten in beliebigen Quellen und Formen erstellen. Diese Modelle bieten eine semantische Ebene und verbergen die Komplexität der zugrunde liegenden Systeme vor den Business-Usern. Die Daten werden über standardisierte Formate wie SQL, REST, OData, GraphQL oder MDX bereitgestellt, ohne die Notwendigkeit Code zu schreiben. Darüber hinaus können sie auch automatisch in einen unternehmensweiten Datenkatalog aufgenommen werden.
Ein weiterer Vorteil von Datenvirtualisierung bei der Umsetzung von Data Mesh Prinzipien besteht darin, dass die Domains ihre Datenquellen selbstständig wählen und weiterentwickeln können. So verfügen viele Unternehmensabteilungen bereits über eigene Analysetools oder eigene speziell auf ihre Bedürfnisse zugeschnittene Anwendungen, die sie dafür verwenden können. Zusätzlich können die Domains bestimmte Datentypen auch in einem Data Warehouse oder einen Data Lake speichern – zum Beispiel Datensätze, die für Machine Learning bestimmt sind – und diese dennoch mithilfe von Datenvirtualisierung über eine einheitliche semantische Schicht zugänglich machen. Damit wird Konsistenz und eine redundanzfreie Datenhaltung gewährleistet.
Darüber hinaus kann auch die Umsetzung von Richtlinien zum Datenschutz durch Datenvirtualisierung automatisiert werden. Je nach den spezifischen Berechtigungen der jeweiligen Datenkonsumenten werden bestimmte Daten, beispielsweise sensible Informationen oder Gehaltsdaten, automatisch ausgeblendet oder maskiert.
Fazit
Data Mesh bietet Unternehmen die Möglichkeit, mehr Kontrolle über ihre Daten zu erlangen und flexibler mit ihnen arbeiten zu können, ohne sie dafür zunächst in einen zentralen Speicher verschieben zu müssen. Dabei übernehmen die datenproduzierenden Teams die Zuständigkeit für das Management und Aufbereitung ihrer Daten und stellen diese in leicht nutzbaren Formen als Data Products anderen Teams und Abteilungen zur Verfügung. Mithilfe von Datenvirtualisierung lassen sich die Daten in einer einheitlichen, kontrollierten und sicheren Datenschicht darstellen, um den Zugriff zu erleichtern und einfacher sowie schneller mit ihnen arbeiten zu können.