Daten gehören wohl zu den kritischsten Vermögenswerten moderner Unternehmen und sind von entscheidender Bedeutung für jegliche Anwendungen. Im zunehmend datengetriebenen Geschäftsumfeld entwickeln sich „DataOps“ zu einer Methode, mit der Unternehmen Kontrolle in das Datenchaos bringen und die zur Entscheidungsfindung beisteuert.
Häufig fälschlicherweise als „DevOps für Daten“ eingeordnet, haben DataOps und DevOps doch einige Gemeinsamkeiten – allen voran die Zusammenarbeit, die zur Verbesserung von Prozessen und Resultaten erforderlich ist. Aber während sich DevOps mit der breiteren Software-Entwicklung und dem Anwendungslebenszyklus befassen, befähigt eine gut funktionierende DataOps-Kultur Organisationen dazu, die Kontrolle über ihren Datenbestand zu übernehmen, ihn zu monetarisieren und eine effektive Entscheidungsfindung auf jeder Ebene anzuleiten.
Um die Disziplin einen Schritt weiter zu bringen, sind intelligente DataOps – der Aufbau des Personals, der Prozesse und Technologien für eine datengesteuerte Kultur – nicht nur von zentraler Bedeutung für diesen Prozess, sondern auch der Schlüssel zur Verbesserung der Lebensqualität von Datenprofis.
Der Aufbau einer DataOps-Praxis kann Unternehmen daher dabei helfen, sicherzustellen, dass sie nicht nur die Kontrolle über ihre Daten übernehmen, sondern auch deren Nutzung optimieren, um deren Rolle, Wirkung und Wert erheblich zu steigern. Es gibt eine Reihe von Leitprinzipien, die Organisationen dabei helfen können, einen effektiven und nachhaltigen Ansatz zu entwickeln.
1. Optimierte Beobachtbarkeit
Dieser Prozess zielt darauf ab, die Leistung von Datenanwendungen standardmäßig so zu gestalten, dass sie über den gesamten Lebenszyklus hinweg optimiert wird. Dazu müssen die Entwicklungsteams Datenbankanwendungen während der Entwicklung und der Tests überwachen und abstimmen, bevor sie für die Produktion freigegeben werden. Dies erfordert neben der Anwendung einer einseitigen Überwachung der Datenpipeline vor allem die effektive Nutzung der daraus gewonnenen Erkenntnisse, um die Leistung und die besten Praktiken zu erfassen (bidirektionale Integration).
Darüber hinaus können die Datenteams mit zunehmender Reife einen gesteigerten Wert aus Intelligent DataOps durch einen informellen Beobachtungs-„Vertrag“ ziehen, indem sie standardmäßig Analysen auf das Monitoring anwenden.
2. Effektive Prozesskommunikation
Intelligente DataOps-Praktiken sind ebenfalls beobachtbar: Sie sind intuitiv, standardisiert und transparent, doch die Gewährleistung der Qualität und Konsistenz in der Kommunikation während des gesamten Organisationsprozesses erfordert Aufwand und Engagement. Technologische Ressourcen, zum Beispiel in Form von Kollaborationssoftware, Berichts- und Analysewerkzeugen, können auch eingesetzt werden, um beobachtbare Prozesse zu schaffen, die das Engagement von Teams fördern.
3. Prüfung von Daten
Jede Anwendung ist datenzentriert, aber Daten sind zufällig und somit die unbeständigste Komponente in jedem Anwendungsentwicklungsprozess. Infolgedessen kann eine Anwendung erst dann als tatsächlich getestet betrachtet werden, wenn sie mit den wildesten möglichen Datensätzen konfrontiert wurde. Automatisierte, integrierte Datentests schließen diese in vielen Datenpipelines häufig auftretende Lücke und bieten eine Form der Datenüberwachung. Dies ist für datenwissenschaftliche Projekte von entscheidender Bedeutung, da es nicht möglich ist, ein nützliches Modell auf Grundlage schlechter Daten zu erstellen und zu trainieren. Infolgedessen sind alle datenwissenschaftlichen Projekte, die ungetestete Daten verwenden, faktisch nutzlos.
4. Abbildung von Datenbeständen
In einer vollständig optimierten DataOps-Umgebung untermauern Daten alle wichtigen Geschäftsentscheidungen, wobei Organisationen gesetzlich zur Einhaltung von Datenschutzbestimmungen verpflichtet sind. Im Idealfall werden daher alle Daten verbucht und haben einen Ursprung, der wiederum eine zuverlässige Karte benötigt, aus der hervorgeht, wo die Daten sich befinden, woher sie stammen und wo sie landen. Dies können Datenteams durch automatisierte Datenbankdokumentation und -analyse erledigen.
5. Relationale Daten sind leichter zu verwalten
Unstrukturierte und NoSQL-Datenbanken haben an Popularität zugenommen, sind aber nicht für alle Daten geeignet. Relationale Datenbankmanagementsysteme (RDBMS) bieten die Struktur, die für die kontinuierliche Integration/kontinuierliche Bereitstellung (CI/CD) erforderlich ist, welche für DevOps und DataOps von zentraler Bedeutung ist. Die fortlaufende Überwachung von RDBMS mit Beobachtbarkeit in der gesamten Datenumgebung verbessert die Datenbereitstellung für Beteiligte, Endbenutzer und Kunden.
Diese Erfordernisse bestehen, weil Daten mittlerweile die primäre Geschäftswährung sind. Um jedoch die Transformation von Legacy-Ansätzen und -Prozessen zum Aufbau einer datengesteuerten Kultur zu vollziehen, ist eine ehrliche Bewertung des vorhandenen Datenstatus nötig. Zu den Schlüsselfragen, die es zu stellen gilt, gehören: Können die Benutzer an die Daten gelangen, die sie benötigen? Sind diese Daten vertrauenswürdig? Und werden sie rechtzeitig bereitgestellt, um eine effektive DataOps-Kultur zu unterstützen?
Wenn Unternehmen und ihre IT-Teams DataOps einführen und dann zu intelligenten DataOps übergehen, werden sie wahrscheinlich von einer effektiveren Abstimmung zwischen ihren Daten-Teams und den DevOps-Teams profitieren. Dies führt zu einer „neuen Normalität“, in der das typische Chaos, das häufig die Rolle der Daten in datengetriebenen Organisationen kennzeichnet und beeinträchtigt, unter Kontrolle gebracht wird. Durch die Konzentration auf die Menschen, Prozesse und Technologien, die jeden Datenbestand umgeben, wird es machbar, ein intelligentes DataOps-Ökosystem aufzubauen. Die Konzentration auf intelligente DataOps stellt den Wert von Daten in den Vordergrund der geschäftlichen Entscheidungsfindung, bildet die Grundlage einer datengesteuerten Kultur und fördert die wechselseitige Zusammenarbeit zwischen Daten- und Entwicklerteams.