Auch die intelligenteste KI liefert keine guten Ergebnisse, wenn man sie mit lückenhaften oder sogar falschen Daten füttert. Eine verlässliche, gut strukturierte und qualitativ hochwertige Datengrundlage ist demnach ein absolutes Must-have.
Das bedeutet: Es führt kein Weg an einem effizienten Datenmanagement vorbei.
Tätigkeiten, die heute 60 bis 70 Prozent unserer täglichen Arbeitszeit verschlingen, sind in Zukunft mithilfe KI-basierter Technologien wie Predictive und Generative AI (GenAI) automatisierbar – so McKinsey. Mit dem Hype um GenAI und Large Language Models (LLM) hat das Thema Künstliche Intelligenz (KI) in der Business-Welt wieder frischen Aufwind erfahren. Doch auch wenn sich die Implementierung von GenAI-Anwendungen im Geschäftsumfeld noch in den Kinderschuhen befindet, schätzt Bloomberg, dass der Markt innerhalb der nächsten zehn Jahre auf bis zu 1,3 Billionen US-Dollar anwachsen könnte. Entsprechend groß ist auch die Erwartungshaltung auf Vorstands- und Geschäftsführungsebene. Dafür müssen sich allerdings erst sinnvolle Use Cases finden, die sich für KI-Anwendungen eignen, damit die Technologie für spürbare Verbesserungen sorgen kann.
Außerdem unterscheiden sich nicht nur die Anforderungen an KI-Use Cases und -Modelle von Branche zu Branche und von Unternehmen zu Unternehmen, sondern auch der KI-Reifegrad. So haben Betriebe, die durch den Einsatz von IoT-Geräten auf natürliche Weise Unmengen an Daten erzeugen, anderen Unternehmen datentechnisch einiges voraus. Das bedeutet allerdings noch lange nicht, dass sie automatisch den erhofften KI-Erfolg einfahren. Generell scheitern schätzungsweise zwischen 60 und 80 Prozent der KI-Projekte. Der Grund: Die Menge der Daten allein reicht nicht – ihre Qualität muss ebenfalls stimmen.
Keine hochwertigen Daten? Keine KI-Vorteile!
Fragt man Unternehmen nach den Risiken, die die Implementierung von KI im Allgemeinen – und im Besonderen von GenAI – verhindern, denken diese vermutlich sofort an mangelnde zeitliche, finanzielle oder fachliche Ressourcen. Laut einer aktuellen Studie von McKinsey sieht die Mehrheit (56 Prozent) zudem noch eine Gefahr in potenziell inkorrekten Ergebnissen. Und auch aus dem Trend-Report von Weka geht hervor, dass vor allem ein unzureichendes Datenmanagement KI-Innovationen hemmt (32 Prozent) – ein eindeutiger Hinweis darauf, dass die aktuelle Datenarchitektur vieler Unternehmen noch gar nicht bereit für einen umfangreichen Wandel ist. Die Herausforderungen sind demnach zu einem Großteil auf schlechte Daten und/oder schlechtes Management ebendieser zurückzuführen.
Grundsätzlich gilt die in der Informatik gängige, dem IBM-Programmierer George Fuechsel zugeschriebene Redewendung: Garbage In, Garbage Out. Eine mangelhafte Datenqualität führt zu ungewollten Problemen wie ungenaue Vorhersagen und Entscheidungen, Verzerrungen, Ressourcenverschwendung und sogar juristische Konsequenzen. Je besser also die Daten sind, desto brauchbarer und zuverlässiger sind die Ergebnisse. Dazu müssen Unternehmen allerdings zunächst herausfinden, wo sich welche Daten in ihrem Netzwerk befinden, welche Qualität sie aufweisen und wie sie an diese Daten gelangen. Daraus ergibt sich sofort eine weitere Herausforderung: Datenintegration. Die Trainingsdaten, die KI-Systeme brauchen, kommen in unterschiedlichen Formen, aus mehreren verschiedenen Quellen sowie in variierenden Volumina. Doch mit wachsender IT-Komplexität, in der Datensilos, duplizierte Daten, Inkompatibilität und komplexe ETL-Prozesse entstehen, wird es immer schwerer, qualitativ hochwertige Daten zusammenzutragen.
Außerdem ist es essenziell, dass Daten demokratisiert und zugänglich gemacht werden, sodass sowohl Anwender als auch Systeme einfach darauf zugreifen können. In diesem Kontext müssen Unternehmen, die KI-Projekte planen oder bereits umsetzen, datenschutzrechtliche Regularien wie die EU-DSGVO sowie die Vorgaben des bevorstehenden EU AI Acts berücksichtigen. Wie sind Data Ownership und Datennutzung geregelt? Wie werden Zugriff, Sicherheit und Privatsphäre gewährleistet und kontrolliert? Wie wird ein möglicher Bias in KI-Systemen verhindert? Wer ist verantwortlich dafür, wo Daten landen und was mit ihnen passiert?
Mit Datenmanagement das Datenchaos bändigen
Damit KI-Modelle mit guten Ergebnissen aufwarten können, sind sie darauf angewiesen, dass Unternehmen relevante und vertrauenswürdige Daten identifizieren, sammeln, vorbereiten, verwalten, sichern und zugänglich machen. Dabei kann eine zentrale, skalierbare und automatisierte Datenmanagement-Lösung helfen, die die oben beschriebenen Herausforderungen adressiert. Dank verschiedener Funktionen verknüpft, vereinheitlicht und demokratisiert sie Daten und bringt so Ordnung in das komplexe Ökosystem:
- Datenkatalogisierung für die einfache Identifizierung, Klassifizierung und Nachvollziehbarkeit von Daten (Data Lineage).
- Datenintegration für die Integration von Daten in unterschiedlichen Formaten und aus verschiedenen Quellen, um eine agile Daten-Pipeline aufzubauen.
- Datenqualität für eine Übersicht über den Zustand aller Daten über die gesamte Daten-Pipeline hinweg, um Anomalien, Duplikate und Ungenauigkeiten zu identifizieren. Um die Datenqualität zu verbessern, sind Regeln für die Datenbereinigung und -standardisierung notwendig, die in die Daten-Pipeline integriert werden müssen.
- Datenmanagement für die Verfügbarkeit akkurater, einheitlicher und vertrauenswürdiger Daten.
- Data Sharing für die Wiederverwendung von vertrauenswürdigen Daten und KI-Modellen.
- Datenschutz, Privatsphäre und Governance für das Management von Datenqualität, Privatsphäre und Compliance. Eine Datenmanagement-Lösung, die über ihren eigenen Cloud-Service verfügt, fördert die Governance zusätzlich, da Unternehmen ihre Informationen zum Beispiel nicht in eine (anfälligere) Public Cloud übertragen müssen.
Vor diesem Hintergrund stellt sich direkt die Frage: Ist meine Datenarchitektur darauf ausgelegt, das zunehmend komplexe Datenökosystem zu stemmen sowie die steigende Anzahl von KI-Use Cases effizient zu automatisieren? In vielen Fällen lautet die Antwort: Nein, wahrscheinlich nicht. Viele KI-Modelle und Systeme werden derzeit mit einem sehr hohen Aufwand individuell und „manuell“ erzeugt. Die einfließenden Daten sind oft handverlesen und werden in einem Individualprojekt dem jeweiligen Modell zugeführt. Auch die KI-Systeme selbst werden bisher oft als Sonderlösung betrieben.
Ein strukturiertes Konzept zur Verwendung des Outputs, der Sicherstellung von nachhaltiger Zuverlässigkeit und Qualität erfolgt selten und widerspricht damit den Grundsätze von Data-Governance und professioneller Machine Learning Operations (MLOps). So treten althergebrachte Probleme der unstrukturierten Individualentwicklung im Zusammenhang mit KI neu in Erscheinung und erschweren oder verunmöglichen einen effizienten und wiederholbaren Vorgang der Wertschöpfung. Deshalb ist der Aufbau einer modernen, soliden Datenarchitektur in Form eines Data Mesh und/oder eines Data Fabric unumgänglich.
Fazit
Sofern noch nicht geschehen, sollten sich Unternehmen, die ihre Prozesse mithilfe von KI und GenAI automatisieren, beschleunigen und effizienter machen wollen, zum einen mit den notwendigen KI-Basics auseinandersetzen – die Grundvoraussetzung für eine effektive, sichere und schnelle Umsetzung. Zum anderen sollten sie schnellstmöglich von der Hype-Phase zur Identifizierung von für das Kerngeschäft relevanten KI-Use Cases übergehen.
Im nächsten Schritt müssen sie herausfinden, was sie für die Umsetzung benötigen, wie sie ihr Datenmanagement auf Vordermann bringen können und ob sie dafür etwas an der zugrundeliegenden Datenarchitektur verändern müssen. Es reicht also nicht, sich einen Account für Public-AI-Anwendungen wie Chat GPT anzulegen. Vielmehr geht es darum, KI-Projekte ganzheitlich und nachhaltig zu betrachten, um auch auf zukünftige Anforderungen vorbereitet zu sein. Ohne qualitativ hochwertige und vertrauenswürdige Daten ist die Reise in eine Zukunft mit KI und GenAI allerdings zum Scheitern verurteilt.