KI-Systeme und -Tools wie ChatGPT von Open AI oder Claude von Anthropic wirken zuverlässiger als sie es tatsächlich sind. Ungenauigkeiten, Intransparenz der Datengrundlage oder “Halluzinationen”, wie die KI-Branche sie auch nennt, gehören zu den größten Herausforderungen bei Large Language Models (LLM).
KI-Systeme sind nur so verlässlich wie die Daten, die dem Modell zugrunde liegen. Deshalb sollte Generative AI niemals als maßgebliche Wissensquelle betrachtet werden. Ihre Hauptaufgabe besteht darin, auf Basis von Trainingsdaten das Richtige zu tun. Eine mangelhafte Datenqualität sorgt unweigerlich für fehlerhafte Ergebnisse. Und es ist meist nicht einfach, fehlerhafte Informationen zu erkennen, die tief in einem Datensatz verborgen sind.
Die Basis für Generative AI
Das bedeutet: Um Generative AI im Unternehmen erfolgreich zu nutzen, braucht es ein leistungsfähiges Datenmanagement und ein ausgefeiltes Verfahren, nach dem bestimmt wird, welche Daten einbezogen und wie diese verarbeitet werden. Hierfür gilt es im ersten Schritt, Datensilos zu beseitigen. Sind Daten in verschiedenen Quellesystemen isoliert und unabhängig voneinander gespeichert, ist es für die KI deutlich schwieriger, Verbindungen zwischen den Datensätzen herzustellen. Deshalb sollte die Zentralisierung von Daten Priorität haben.
Zweitens empfiehlt es sich, einen Data Catalog zu verwenden, um Tabellen zu definieren und Metadaten zu strukturieren. Außerdem lässt sich damit die Governance verbessern, um KI-Datensätze verwalten und effizient auf Datenschutzgesetze und Anfragen von Regulierungsbehörden reagieren zu können. Ein Data Catalog kann zudem wichtige Change-Tracking- und Indexing-Funktionen zur Verfügung stellen, die beim Datenmanagement Zeit und Rechenleistung sparen.
Der dritte und wichtigste Schritt ist die Automatisierung von Datenintegration und -management. Denn in der Regel ist es sehr zeitaufwändig, Datenpipelines manuell zu pflegen, weil sich häufig Schemata, Endpunkte oder APIs im laufenden Betrieb ändern. Sind Datenteams von diesen Aufgaben befreit, können sie sich auf Aufgaben konzentrieren, die Erkenntnisse und damit einen echten Gewinn für das Unternehmen bringen. Ein Modern Data Stack bringt häufig einen echten Schub in Richtung KI-Reife, weil er mit automatisierter Datenintegration und Visualisierungsplattformen einen einfachen und präzisen Datenzugriff ermöglicht. Weil der Workload praktisch beliebig skalierbar ist, können Unternehmen ohne Bedenken KI-Modelle erstellen. Auch sorgen zuverlässige automatisierte Datensysteme dafür, dass man dem Output eines KI-Modells vertrauen kann.
In Sachen Datenintegration ergab eine Umfrage von Vanson Bourne, dass Data Scientists 70 % ihrer Zeit mit der Bearbeitung und Aufbereitung von Daten verbringen, anstatt KI-Modelle zu erstellen. Noch mehr, nämlich 87 % der Befragten, gaben an, dass Data Scientists nicht ihr volles Potenzial ausschöpfen. Eine höhere Datenqualität verschafft ihnen mehr Zeit, um sich auf die Entwicklung von präzisen und zuverlässigen KI-Modellen zu konzentrieren.
KI aufbauen bei unsicherer Rechtslage
Während Unternehmen unter Druck stehen, Gerative-AI-Tools zur Produktivitätssteigerung einzuführen, ist die EU noch dabei, entsprechende Vorschriften anzupassen. Es ist jedoch davon auszugehen, dass viele der aktuell geltenden Datenschutzprinzipien hinsichtlich Transparenz, Benachrichtigungspflichten und dem Recht auf Privatsphäre auch für Generative AI gelten werden, soweit das technisch möglich ist. Mit folgenden Vorgehensweisen sind Unternehmen gut vorzubereitet:
Transparenz und Dokumentation
- Klare Kommunikation zur Nutzung von KI
- Dokumentation der Logik, der beabsichtigten Nutzung und potenzieller Auswirkungen auf die betroffenen Personen
- Detaillierte Protokolle über die Verarbeitung personenbezogener Daten für Governance, Datensicherheit und Datenschutzrechte
Minderung des Offenlegungsrisikos
- Nutzungsbedingungen für Tools überprüfen
- Datenschutzvereinbarungen mit KI-Anbietern treffen, um geschützte und personenbezogene Daten zu gewährleisten
- Vertragliche Schutzmechanismen für Vertraulichkeit und die Wiederverwendung von Daten einbauen
Lokalisierte LLMs nutzen
- KI-Modelle auf unternehmensspezifischen Daten trainieren, um Datenlecks zu vermeiden und Bedenken hinsichtlich der Offenlegung von Daten auszuräumen. Dies steigert ferner die Produktivität, indem die KI relevante Erkenntnisse liefert und gleichzeitig die Datenschutzrisiken reduziert.
Klein anfangen und experimentieren
- Kleinere KI-Modelle vor der Integration mit Live-Daten lokal testen sowie Sicherheitstests durchführen, um Probleme zu erkennen, die erforderliche Genauigkeit zu gewährleisten und potenzielle Schwachstellen zu beseitigen.
Den menschlichen Faktor beibehalten
- Generative AI sollte die menschliche Leistung ergänzen, nicht vollständig ersetzen. Der Mensch sollte KI-erstellte Inhalte prüfen, vor allem, wenn es um kritische Entscheidungen geht.
Fazit
Um mit Generative AI erfolgreich zu sein, müssen Unternehmen kritisch hinterfragen, was KI heute leisten kann und was nicht. Um ihren Nutzen zu maximieren, gilt es dann, die bestehenden Datensysteme anzupassen. Denn die Datenqualität ist von entscheidender Bedeutung, um das volle Potential von KI für die Geschäftswelt auszuschöpfen und gleichzeitig die Einhaltung von Vorschriften zu gewährleisten. Um die Datenqualität zu sichern, ist ein automatisiertes Data Movement unverzichtbar. Unternehmen, die damit heute eine solide Datengrundlage schaffen, werden in Zukunft die besten Ergebnisse mithilfe von KI erzielen.