Das Data Lake Konzept: Der Schatz im Datensee

Daten und Informationen spielen in Unternehmen eine immer größere Rolle, und sind neben Arbeit, Kapital und Umwelt der neue Produktionsfaktor geworden. Kaum ein Begriff hat diesen Bereich so geprägt wie „Big Data“.

Dabei geht es keineswegs nur um die Größe der Datenmengen. Vielmehr sind in den letzten Jahren neue Arten von Daten in Unternehmen angefallen, angefangen von einer zunehmenden Zahl an Sensordaten und technischen Log-Dateien bis hin zu Social Media. Diese enthalten häufig wertvolle Informationen, werden aber in klassischen Business Intelligence Syst men ignoriert. Big Data bedeutet letztendlich, Nutzen aus einer Vielzahl oder allen Daten zu ziehen.

Anzeige

Matthias Reiss
Für den Gewinn neuer Erkenntnisse gilt es, traditionelle und neue Analysemethoden intelligent miteinander zu kombinieren. Die optimale Integration von Big Data Technologien wie Hadoop mit bestehenden Architekturen ist hier von entscheidender Bedeutung.“
Matthias Reiss, IT Specialist Big Data, IBM

Die Heterogenität der „neuen“ Daten und die schnelle Veränderlichkeit der Formate, lässt sich kaum mit klassischen Data Warehouse Prozessen und Methoden abbilden. Hauptursache dafür sind der hohe Vorab-Aufwand für Datenintegration und die daraus resultierende mangelnde Flexibilität neue Anforderungen auch sehr kurzfristig und agil umsetzen zu können. Außer- dem lassen sich manche Daten nur schwer in klassische, relationale Strukturen überführen. Um diese neuen analytischen Anforderungen zu adressieren, wird immer öfter das Data Lake Konzept eingesetzt.

Lesen Sie hier die Fortsetzung, veröffentlicht 3. Juni 2017:

Anzeige

>> Das Data Lake Konzept: Die Schatzsuche im Datensee geht weiter

Gemeinsamkeiten und Unterschiede zum Data Warehouse

Im Vergleich zum klassischen Data Warehouse ist dies ein Paradigmenwechsel: Wurden traditionell die Daten zunächst mit komplexen Datenqualitäts- und Integrationsverfahren in definierte Strukturen überführt, werden sie beim Data Lake direkt in ihrer Ursprungsform abgelegt. Damit können beliebige Daten schnell und einfach für Analysen nutzbar gemacht und beliebig verknüpft werden. Während beim klassischen Data Warehouse eine hohe (Prozess-) Effizienz für interaktive Analysen und Berichte im Vordergrund steht, und die Informationen relativ passgenau für den Benutzer aufbereitet sind, ermöglicht ein Data Lake vor allem das einfache Entdecken neuer Zusammenhänge in nicht aufbereiteten Daten. Diese in der Data Science verbreitete, „forschungsorientierte“ Vorgehensweise ist vor allem sinnvoll, wenn nicht klar ist, ob Nutzen aus den Daten generiert werden kann. In der Praxis lässt sich feststellen dass fast immer eine Kombination aus standardisierten Self-Service Analysen und Data Science orientierten Vorgehensweisen erforderlich ist, was zu Architekturen wie in Bild 1 führt. Der Data Lake ist dabei in einen Rohdatenbereich (Raw Data) und einen Bereich mit aufbereiteten, integrierten und qualitätsgesicherten Daten (Refined Data) unterteilt.

Der Data Lake und seine Bereiche.

Bild 1: Der Data Lake und seine Bereiche.

Data Lakes: Kombination von Technologien

Herzstück des Data Lakes ist üblicherweise das Open Source Framework Hadoop. Es kann beliebige Datenarten in großer Menge verarbeiten, wobei die Berechnungen über viele Knoten eines Clusters verteilt werden. Damit eignet es sich ideal, die Rohdaten in ihrer Ur- sprungsform zu speichern und zu analy- sieren. Manchmal besteht aber auch die Notwendigkeit, Daten schon vor dem Speichern zu analysieren. Gründe dafür sind zum Beispiel Echtzeitanforderun- gen (z. B. aus Analysen resultieren direkt Aktionen, von der Warnung (Alert) bis zum vollautomatischen Prozess) oder dass eine vollumfängliche Speicherung technologisch oder wirtschaftlich nicht sinnvoll ist und nur bestimmte Events herausgefiltert werden sollen oder eine Vorverdichtung stattfinden soll. Dafür werden Streaming-Analyse Systeme wie IBM InfoSphere Streams verwendet, die Analysen direkt im Datenstrom ermöglichen.

Innerhalb des Data Lake werden Daten teilweise aufbereitet um dem Fachanwender die Arbeit zu erleichtern, indem sie zum Beispiel in dimensionale Modelle mit den entsprechenden Dimensionen überführt werden, Bestandkennzahlen aus Zu-/Abgängen vorberechnet werden und Datenqualitätsverfahren angewendet werden. Diese aufbereiteten Daten werden dann oft einer großen Gruppe von Anwendern bereitgestellt.

Der aufbereitete Teil des Data Lake entspricht in seinem Konzept im Wesentlichen dem des Data Warehouse. Daher werden oft klassische Datenbank-Technologien verwendet, wobei der Anspruch der Anwender gerade an die Ein-achheit deutlich gestiegen ist. Eine Vielzahl neuer innovativer Produkte – vom hybriden in-memory Data Warehouse über Data Warehouse Appliances bis hin zu Cloud-Angeboten adressieren dieses Bedürfnis. Ziel ist vor allem die schnellere Umsetzung neuer Anforderungen um auf dynamische Veränderungen etwa im Marktumfeld schnell und agiler (re-)agieren zu können.

Die so gewonnene Agilität ist allerdings eine große Herausforderung aus Governance-Sicht. Diese beschränkt sich dabei nicht nur auf Sicherheit, sondern umfasst auch Aspekte wie Nachvollziehbarkeit der Prozesse, Dokumentation der Dateninhalte und Interpretationen oder aber auch Maskierung von Daten für bestimmte Nutzergrup- pen. Effektive Governance erfordert einen ganzheitlichen Ansatz über den gesamten Prozess und Technologiegrenzen hinweg, um ein komplettes Bild des „Puzzles“ zu erhalten.

Der Einfluss von Technologie auf Geschäftsmodelle

Bei allen Technologiediskussionen ist wichtig, den Nutzen immer fest im Blick zu behalten. Neue, flexible Konzepte wie der Data Lake und innovative Produkte wie Hadoop und Streaming Analysen bieten weit mehr Möglichkeiten als die Modernisierung vorhandener Analyselandschaften. Sie ermöglichen vor allem komplett neue Geschäftsmodelle und -felder.

Das Beispiel des dänischen Windradherstellers Vestas zeigt, wie Technologie ein Geschäftsmodell nachhaltig verändern kann. Aufgrund zunehmenden Preisdrucks und der in Europa hohen Produktionskosten mussten neue Wege gefunden werden, sich im weltwei- ten Wettbewerb zu differenzieren. Um nicht nur Anlagen zu liefern, sondern Komplettprojekte mit „eingebauter“ In- vestitionssicherheit, entschied Vestas daher, Big Data zu nutzen um optimale Standorte für Windkraftanlagen/-parks zu berechnen und diese Ergebnisse Kunden und Vertriebsmitarbeitern zur Verfügung zu stellen.

Vor allem die Genauigkeit der Berechnungen und die Art der genutzten Daten waren entscheidend. Die Genauigkeit hing stark vom Detaillierungsgrad der Basisdaten, in diesem Fall der Windinformationen ab. Dank des Übergangs vom Wetterballon zu laserbasierter Messtechnologie stehen mittlerweile Werte mit deutlich höherer Präzision und Frequenz zur Verfügung, was zu einer massiven Vervielfachung der Daten führte. Interessant war aber auch die Vielfalt der Daten, die kombiniert werden mussten: Angefangen von Sensorda-en wie Wetterinformationen, über historische Informationen von Anlagen bis hin zu Stammdaten wie Karteninformationen. Wesentlich war neben der Performance vor allem das einfache Einbinden neuer Datenformate in ihrer Ursprungsform. Dies entspricht dem Rohdaten-Bereich des Data Lake. Zur Realisierung wurde mit IBM BigInsights eine für den Unternehmenseinsatz entwickelte Hadoop Distribution eingesetzt.

Hadoop – Grundlagen für die erfolgreiche Implementierung

Das Apache Hadoop Framework mit sei- nem flexiblen Ansatz auf Basis eines ver- teilten Filesystems bietet sich als eine der Kernkomponenten einer Data Lake Ar- chitektur an. Daten in verschiedenster Form können hier effizient und kosten- günstig abgelegt und für Analysen zur Verfügung gestellt werden. Installation, Betrieb und Wartung eines Hadoop Clusters erfordern allerdings eine nicht zu unterschätzende Menge an Know How, Aufwand, Zeit und Kosten.

Vestas bietet seinen Kunden Investitions- und Planungssicherheit durch Big Data.

Bild 2: Vestas bietet seinen Kunden Investitions- und Planungssicherheit durch Big Data.

Hadoop Distributionen nehmen mit optimal aufeinander abgestimmten Open Source Komponenten, erweitert um sinnvolle, an der Praxis in Unternehmen orientierten Erweiterungen und Tools, einer Hadoop Implementation den Schrecken. Dies ermöglicht den Aufbau eines Data Lakes mit optimaler Integration in bestehende Systemlandschaften und macht Hadoop von der Installation bis hin zur fertigen Analyse und Visualisierung fit für den Einsatz im Unternehmen.

Daten und Analysen für Alle

Data Lake Konzepte versprechen einem breiten Personenkreis im Unternehmen Zugang zu Daten und Analysen zu ermöglichen. Die darunterliegende Plattform soll Erkenntnisse jenseits der standardisierten BI-Reports ermöglichen und zum kreativen Arbeiten mit den Daten einladen. Genau hier gilt es aber im Hadoop Umfeld, einige Hürden zu überwinden. Java APIs oder Sprachen wie Pig setzen profunde Programmierkenntnisse voraus. Der entsprechende Skill in Unternehmen wie auch am Markt ist bislang nur begrenzt vorhanden.

Erfolg versprechen hier Komponenten, welche auf seit vielen Jahren im Unternehmen vorhandenem Know-how aufsetzen, einen schnellen Einstieg in die Welt von Big Data bieten und die Umsetzung von Analysen beschleunigen können. Ein Ansatz dafür sind zum Beispiel Werkzeuge, die ähnlich wie Tabellenkalkulationsprogramme funktionieren, dabei aber die speziellen Anforderungen von Big Data berücksichtigen. Zum einen werden intuitive Importprozesse für typische Daten wie JSON, CSV, TSV oder integrierte Webcrawler benötigt. Zum anderen ist es sinnvoll, Analysen zunächst auf einem kleinen Datenaus- schnitt (Sample) zu definieren bevor sie auf den gesamten Datenbestand angewendet werden, was idealerweise automatisiert sein sollte.

Stephan Reimann
„Nicht das Sammeln der Daten, sondern sie zu nutzen steht beim Data Lake im Mittelpunkt. Die hohe Flexibilität dieses Konzeptes ermöglicht neben der Modernisierung vorhandener Analyselandschaften auch komplett neue, datenbasierte Geschäftsmodelle.“

Stephan Reimann, IT Specialist Big Data, IBM

Ein weiterer wichtiger Punkt ist die Anbindung von Analyse- und Reportingtools. Dies erfordert eine Hadoop SQL Engine welche mit Standard JDBC/ ODBC Treibern eingebunden werden kann. Entscheidend ist die ANSI-SQL Kompatibilität, die die Nutzung vorhandener BI-Werkzeuge auf Hadoop Daten erst ermöglicht.

Neben SQL gewinnen vor allem komplexe, statistische Analysen zum Beispiel mit R immer mehr an Bedeutung. Die Möglichkeit R-Code direkt auf Hadoop Clustern auszuführen, eröffnet dabei komplett neue Anwendungsfelder, erfordert jedoch spezielle Implementieru gen von R, da dieses ursprünglich für Einzelplatzsysteme entwickelt wurde. Neben den funktionalen Aspekten sind beim Betrieb eines Hadoop Clusters aber auch Multi-Tenancy und Workload-Management Funktionalitäten notwendig, um die verschiedenen analytischen Anforderungen voneinander abgrenzen und Ressourcen effizient zur Verfügung stellen zu können.

Klares Wasser statt trübe Brühe

Der beste Werkzeugkoffer nützt nichts, wenn nicht die einzelnen Tools geplant und mit Bedacht eingesetzt werden. Bei allen Chancen, die ein Data Lake bietet sollte das Thema Governance nicht außer Acht gelassen werden. Mehr denn je gilt es in der Flut an Information nicht den Überblick zu verlieren.

Es reicht daher nicht den Data Lake aufzubauen in dem man Daten aus allen zur Verfügung stehenden Quellen in das zentrale Repository hineinfüllt, sondern es geht darum, die Möglichkeiten dieses Konzeptes richtig zu nutzen. Ohne vernünftiges Information Management und entsprechende Governance wird dies nicht gelingen.

Fragen nach der Quelle, Vertrauenswürdigkeit, Schutz und dem Lifecycle Management der Daten sind wichtiger denn je. Welche Daten sind im Repository vorhanden, wie ist deren Definition und in welchen Kontext stehen sie zueinander sind Informationen welche einen weiteren Erkenntnis Gewinn erst ermöglichen. Leistungsfähige Datenintegrationstools mit intelligentem Metadatenmanagement ermöglichen die Kontrolle zu behalten und eine Nachvollziehbarkeit der Verarbeitungs- Prozesse zu gewährleisten.

Der Schatz im Datensee

Der Data Lake bietet viele Möglichkeiten, Daten und Informationen in Unternehmen gewinnbringend zu Nutzen. Er ermöglicht neben ganz neuen Anwendungsfällen und daraus resultierenden Geschäftsmöglichkeiten vor allem eine „Demokratisierung“ der Daten, oder anders gesagt: Die richtigen Daten zur richtigen Zeit zur Verfügung zu haben. Oder wenn dies mal nicht der Fall ist, diese einfach und schnell verfügbar zu machen. Und die richtige Entscheidungsgrundlage für eine wichtige Entscheidung ist oftmals Gold wert. Viel Erfolg bei der Schatzsuche im Datensee!

>> Zur Fortsetzung: Die Schatzsuche im Datensee geht weiter

Matthias Reiss und Stephan Reimann 

www.ibm.com/de/de

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.