Daten sind eine der wichtigsten Ressourcen eines Unternehmens. Sie dienen als Grundlage für strategische Entscheidungen und bieten immense Potenziale für Umsatz- und Gewinnsteigerungen. Dieser Goldschatz wird jedoch nicht selten stiefmütterlich behandelt und fristet ein Dasein im Verborgenen.
Nur durch eine effiziente Datenverwaltung im Unternehmen kann er erfolgreich geborgen und sinnvoll genutzt werden.
Im Zuge der Digitalisierung sehen sich Unternehmen zunehmend mit komplexeren und umfangreicheren IT-Systemen zur Unterstützung ihrer Geschäftsprozesse konfrontiert. Daten und Informationen sind zum kritischen Faktor für den erfolgreichen Geschäftsbetrieb geworden und bilden die Basis von technologischen Trends wie Industrie 4.0. Das steigende Datenwachstum bietet für Unternehmen neue Potenziale zur Realisierung von Geschäftsmodellen und zum systematischen Lernen aus den Daten für schnellere sowie bessere Entscheidungs- und Anpassungs-prozesse. Hierfür dürfen Daten jedoch nicht nur gesammelt, sondern müssen zu höherwertigen Informationen aufbereitet und in Entscheidungen überführt werden. Essenziell wird dabei die Fähigkeit zur automatischen Datenanalyse, um Ursache-Wirkungsbeziehungen aus Daten verschiedener Quellen abzuleiten und zukünftige Ereignisse zu prognostizieren.
Der gewinnbringenden Nutzung des vorhandenen Datenbestandes im betrieblichen Kontext stehen in vielen Unternehmen jedoch nicht selten schwer zu überwindende Hürden im Wege. Gewachsene heterogene Systemlandschaften, die die Unternehmensdaten auf zahlreiche Software-Applikationen in verschiedenen Formaten und Strukturen und auf unterschiedliche Speicherorte verteilen, sind in der Praxis eher die Regel als die Ausnahme. Das Management der Daten beschränkt sich hier häufig auf das Management von Problemen, die im Zusammenhang mit fehlerhaft erfassten und veralteten Informationen sowie doppelter Datenhaltung entstehen. Unternehmensentscheidungen stützen sich dann auf manuell erstellte Berichte, die Informationen aus den verschiedenen Datenquellen und Systemen zusammenfassen. Eine weitergehende und automatisierte Wertschöpfung, die die Integration und Bereinigung des Datenbestandes voraussetzen würde, ist in einem solchen Szenario nicht direkt umzusetzen.
Eine datenorientierte Neuausrichtung des Unternehmens erfordert Basiswissen in der Kategorisierung, Modellierung und Integration von Daten sowie Kenntnisse über verschiedene Praktiken und Werkzeuge zu deren Verwaltung und Analyse. Die Beschaffung und Akkumulation dieses Wissens im Unternehmen stellt eine Grundvoraussetzung dar, um die Datenlandschaft des eigenen Unternehmens bewerten und analysieren zu können. Darauf aufbauend können dann Maßnahmen zur Integration und Qualitätssteigerung des Datenbestands ergriffen sowie Abläufe und Werkzeuge zur automatisierten Verwaltung der Daten im Unternehmen etabliert werden. Ziel muss es dabei sein, aus dem so erschlossenen Datenbestand unmittelbaren Nutzen für bestehende und neue Geschäftsmodelle zu ziehen. In den folgenden Abschnitten wird skizziert, welche Aspekte eine wesentliche Rolle zur effizienten Datenverwaltung im Unternehmen spielen.
Datenbank-Managementsysteme, Datenmodelle und Metadatenmanagement
Der überwiegende Großteil aller (strukturierten) Daten in Unternehmen findet sich heute in relationalen Datenbanken, die von entsprechenden relationalen Datenbank-Managementsystemen verwaltet werden. Herausragende Eigenschaften dieser Systeme sind:
- Anwendungsunabhängigkeit der Daten. In den Anfängen der Datenspeicherung wurden Daten in einfachen Betriebssystem-Dateien gespeichert. Die interne Struktur dieser Dateien unterschied sich von Programm zu Programm, je nachdem, welches Format und welchen Zeichensatz sich der entsprechende Programmierer ausgedacht hatte (z. B. Byteposition 1: Nachname; Byteposition 17: Vorname; Byteposition 37: Straße usw.). Für andere Programme bzw. Programmierer, die dieses Format nicht kannten, waren die Daten nichts weiter als eine Kette von Nullen und Einsen. Spätestens während der Apollo-Mondmissionen der 1960er Jahre, bei denen hunderte von Zulieferern und zigtausende von Teilen verwaltet werden mussten, erkannte man, dass diese Form der Programmierung nicht mehr zu beherrschen war. Ergebnis dieser Entwicklung waren Datenbank-Managementsysteme, die nicht nur die eigentlichen Daten verwalteten, sondern auch die Metadaten (Daten über die Daten), die die Struktur der verwalteten Daten enthielten. Fortan konnten nun beliebig viele Programme „gegen“ eine Datenbank geschrieben werden, die die Daten aller in den Programmen benötigten Daten enthielt.
- Relationales Datenmodell. Die Daten werden in Tabellenform gespeichert, wobei jede Zeile einem Datensatz (z. B. Personen mit Adresse) und jede Spalte einem Attribut (z. B. Hausnummer) entspricht. Die Datentypen der Attribute werden dabei genau definiert (z. B. Zeichenketten/Texte mit bestimmter Länge oder Zahlen mit einer bestimmten Anzahl von Nachkommastellen). Jede Tabelle erhält als Attribut oder Attributmenge einen eindeutigen Schlüssel (z. B. Personal- oder Artikelnummer), dessen Werte jeden Datensatz eindeutig identifizieren. Beziehungen zwischen diesen Tabellen werden dann über sog. Fremdschlüssel hergestellt: Zwischen einer Abteilungstabelle und einer Mitarbeitertabelle wird z. B. eine Beziehung hergestellt, indem die Mitarbeiter-Daten-sätze jeweils als Attribut den Schlüssel der Abteilung enthalten, zu der die entsprechenden Mitarbeiter gehören. Die Struktur der Gesamtheit aller Tabellen und Beziehungen einer Datenbank (das „Datenbankschema“) kann dann sehr anschaulich über ein sog. Entity-Relationship-Diagramm dargestellt werden, das die in der Datenbank gespeicherten „Entitäten“ (Abteilungen, Mitarbeiter etc.) über Abhängigkeitspfeile untereinander verbindet.
- Die Anfragesprache SQL (Structured Query Language), die es Programmen bzw. Programmierern auf einheitliche Weise erlaubt, sowohl Datenbanktabellen anzulegen („Data Definition“) als auch Daten in diese zu schreiben („Data Manipulation“). Sowohl die Tabellen(strukturen) als auch die darin enthalten Daten können über SQL natürlich auch geändert oder gelöscht werden.
- Das ACID-Prinzip (atomicity, consistency, isolation, durability). Das Datenbank-Managementsystem sorgt dafür, dass
- Datenbankoperationen immer komplett ausgeführt werden.
- sich die Datenbank immer in einem konsistenten Zustand befindet
- parallele Zugriffe unabhängig voneinander erfolgen
- Änderungen dauerhaft gespeichert bleiben.
Fragen, die sich ein Unternehmen in diesem Zusammenhang stellen muss, sind z. B.
Liegen die Daten überhaupt in einem relationalen Datenbanksystem?
Auch heute finden sich noch alte Systeme, bei denen Daten in einfachen Dateien verwaltet und z. B. über die antiquierte Programmiersprache COBOL abgefragt werden. Berentete Programmierer, die aus dem Ruhestand geholt werden müssen, da sie als einzige die Struktur der Daten kennen und auch noch COBOL beherrschen, sind hier z. B. die Folge.
Entspricht das Datenbankschema den aktuellen Anforderungen?
Häufig werden Datenbanken z. B. über ein ERP- oder CRM-System verwaltet, das von einer bestimmten Datenstruktur ausgeht. Wenn sich Geschäftsprozesse in einem Unternehmen ändern, müssen die verwendeten Systeme an die neuen Abläufe angepasst werden. Bei alten Systemen lassen sich die benötigten Funktionen oft nicht mehr umsetzen, da diese nicht im zugrundeliegenden Datenbankschema berücksichtigt wurden. Die Mitarbeiter müssen dann ineffizient „neben“ dem System (z. B. in Office-Dokumenten) arbeiten, um die benötigten Daten festzuhalten. Hier bleibt als Ausweg in der Regel nur der Umstieg auf ein neues System.
Sind die Geschäftsregeln, die z. B. die Formate von bestimmten Daten (z. B. Artikelnummern) regeln (also Metadaten), dokumentiert und werden diese auch eingehalten?
Oft findet man z. B. Tabellen mit sehr kreativen Schlüsselattributen (Einbettung z. B. bestimmter Untergruppen, Eigenschaften etc.), die eine automatisierte Verarbeitung erschweren.
Datenlebenszyklus-Management, Datenqualität und Data Governance
Unter Datenlebenszyklus-Management versteht man (sehr grob) das Management von Prozessen, innerhalb derer Daten angelegt, verarbeitet oder archiviert/gelöscht werden. Fragen, die sich in diesem Zusammenhang stellen, sind z. B.:
- Wie werden die Daten erfasst (z. B. durch eine oder mehrere Personen oder automatisiert)? Geschieht diese Erfassung effizient, d. h. werden z. B. falsch formatierte oder doppelt eingegebene Informationen automatisch abgefangen? Ist dies nicht der Fall, finden sich z. B. in Telefonfeldern uneinheitliche Formate oder gar Texte, die die automatisierte Verarbeitung (z. B. durch eine Telefonanlage) erschweren. Auch Dubletten können hier entstehen, wenn bei der Eingabe nicht geprüft wird, ob der Datensatz evtl. schon im System vorhanden ist.
- Was passiert mit den Daten während ihrer Verwendung? Werden fehlende Informationen ergänzt oder falsche Informationen korrigiert? Z. B. Adressdaten können mit der Zeit altern, wenn Adressänderungen nicht erfasst werden. Stehen für Analysen benötigte Daten überhaupt zur Verfügung?
- Was passiert mit den Daten nach ihrem Lebensende? Werden z. B. rechtliche Vorgaben eingehalten, die eine Löschung von Daten nach einem bestimmten Vorgang oder Zeitraum fordern? Geistern alte Daten weiterhin in der Datenbank herum, da sie z. B. nur mit einem „Lösch Flag“ versehen werden, wodurch die Datenbestände stark anwachsen und unübersichtlich werden?