Daten sind das Kapital eines Unternehmens. Dennoch werden sie trotz ihrer immensen Relevanz immer noch fragmentiert und in unterschiedlichen Formaten in zahlreichen Legacy- und Cloud-basierten Systemen gespeichert. Um den Zugriff auf diese Daten zu erleichtern, zentralisieren die meisten IT-Abteilungen so viele Informationen wie möglich.
Sie verwenden in der Regel Punkt-zu-Punkt-Daten-Pipelines, um Daten zwischen operativen Datenbanken und einem zentralisierten Data Warehouse oder Data Lake zu verschieben. ETL-Pipelines (Extrahieren, Transformieren und Laden) zum Beispiel nehmen Daten auf, transformieren sie in regelmäßigen Batches und leiten sie später an ein nachgelagertes analytisches Data Warehouse weiter. ETL-Pipelines und Reverse-ETL-Pipelines senden zudem Ergebnisse von Datenanalysen, die im Warehouse stattfinden, zurück an operative Datenbanken und Anwendungen
Warum ältere Daten-Pipelines nicht mehr geeignet sind
Auch wenn Unternehmen heutzutage oft Dutzende bis Hunderte Punkt-zu-Punkt-Daten-Pipelines betreiben, kommen immer mehr IT-Verantwortliche zu dem Schluss, dass Punkt-zu-Punkt- und Batch-basierte Daten-Pipelines nicht mehr zeitgemäß sind.
Ältere Pipelines sind in der Regel nicht sehr flexibel und werden von Entwicklern als „Black Boxes“ wahrgenommen, da sie nicht angepasst werden können und sich nur schwer in andere Umgebungen übertragen lassen. Wenn betriebliche Prozesse oder Daten angepasst werden müssen, vermeiden es Datenentwickler deshalb, bestehende Pipelines zu ändern. Stattdessen fügen sie noch mehr Pipelines und die damit verbundenen technischen Schulden hinzu. Im Endeffekt benötigen herkömmliche ETL-Pipelines zu viel Rechenleistung und Speicherplatz, was mit zunehmendem Datenvolumen und Anforderungen zu Skalierungs- und Leistungsproblemen sowie hohen Betriebskosten führen kann.
Weshalb Daten-Streaming-Pipelines anders sind
Daten-Streaming-Pipelines sind ein moderner Ansatz zur Bereitstellung von Daten als Self-Service-Produkt. Anstatt Daten an ein zentrales Warehouse oder ein Analyse-Tool zu senden, können Daten-Streaming-Pipelines Änderungen in Echtzeit erfassen, sie im Fluss anreichern und an nachgelagerte Systeme senden. Teams können mit einem eigenen Self-Service-Zugriff Daten verarbeiten, freigeben und wiederverwenden, wo und wann immer sie benötigt werden.
Im Gegensatz zu gewöhnlichen Pipelines können Daten-Streaming-Pipelines mit deklarativen Sprachen wie SQL erstellt werden. Dabei werden unnötige operative Aufgaben mit einer vordefinierten Logik der erforderlichen Vorgänge gemieden. Dieser Ansatz trägt dazu bei, das Gleichgewicht zwischen zentralisierter kontinuierlicher Observability, Sicherheit, Policy-Management, Compliance-Standards und der Notwendigkeit für leicht durchsuchbare und auffindbare Daten zu wahren.
Darüber hinaus können IT-Abteilungen mit Daten-Streaming-Pipelines agile Entwicklungsverfahren anwenden und modulare, wiederverwendbare Datenflüsse erstellen, die mit Version-Control- und CI/CD-Systemen getestet und debuggt werden. Daten-Streaming-Pipelines lassen sich auf diese Weise einfacher ausbauen und pflegen, was im Vergleich zu konventionellen Ansätzen die Gesamtbetriebskosten (TCO) reduziert. So können Unternehmen ihre Daten in Echtzeit auf eine skalierbare, elastische und effiziente Weise auf dem neuesten Stand halten
Heute müssen Unternehmen in der Lage sein, Daten in Echtzeit zu nutzen. Sie erhalten dadurch Echtzeiteinblicke in Geschäftszahlen und ermöglichen es Daten-Teams, zeitnah auf Veränderungen im Markt zu reagieren. Schnellere und intelligentere Abläufe, basierend auf Daten-Streaming-Pipelines, ermöglichen die Erfüllung von heutigen und künftigen Daten- und Geschäftsanforderungen und können die operativen Kosten nachhaltig senken.