Künstliche Intelligenz basiert auf guter Datengrundlage – an genau diesem Punkt kommt Datenqualität ins Spiel. Dabei bedeuten große Datenmengen nicht zwangsläufig, dass diese für einen KI-Anwendungsfall geeignet sind. Was also meint Datenqualität hinsichtlich KI und wirksamer KI-Tools?
Und wie kreieren mittelständische Unternehmen in Zukunft Datenqualität für künstliche Intelligenz?
Wesentliche Erfolgsparameter
Wirkliche Prominenz erlangte KI insbesondere durch erstaunliche Ergebnisse sogenannter Large Language Models wie ChatGPT. Solche Erfolgsgeschichten lassen viele Unternehmer in dem Glauben, gewinnbringende Large Language Models, kurz LLMs, seien echte Selbstläufer. Tatsächlich funktionieren die heutigen LLMs in ihrer Domäne auch deshalb so gut, weil das Internet gigantische Datenmengen bereitstellt und Entwickler diese mittels Pre-Training effizient nutzen. Die Kombination aus vorhandenen Daten und einem Pre-Training ist jedoch nicht in allen Bereichen durchsetzbar. Letzteres erfordert vor allem eine horrende Menge Content in Textform.
Mittelständler, die perspektivisch eigene KI-Use-Cases entwickeln und umsetzen möchten, kommen nicht umhin, sich mit dem Thema Datenqualität auseinanderzusetzen. Sie entscheidet in letzter Instanz über das Gelingen eines KI-Projekts, definiert die Datenmengen und den Nutzwert der Ergebnisse. Es gilt das Garbage-in-garbage-out-Prinzip: Taugen die Daten nichts, erzielt auch das beste Machine Learning Model keine zufriedenstellenden Resultate.
Was meint Datenqualität?
Welche Anforderungen müssen qualitativ hochwertige Datensätze erfüllen? Einige Datenqualitätskriterien sind recht einfach nachzuvollziehen und zu prüfen, darunter die Datenvollständigkeit. Fehlen in den einzelnen Trainingsbeispielen nur wenige Einträge, beugt das größeren, zusammenhängenden Lücken vor. Kleine Leerstellen schließen Experten, indem sie einzelne Werte durch den Mittelwert ersetzen. Größere Auslassungen im Datensatz hingegen erschweren dieses Vorgehen.
Darüber hinaus sollten Daten wenige Outlier enthalten. Outlier meint Datenpunkte, also Trainingsbeispiele, die sich in einem oder mehreren Werten in ihrem Wesen vollkommen von den anderen Datenpunkten unterscheiden. In Summe bringen sie das Machine Learning Model von der eigentlichen Verteilung ab. Outlier entstehen unter anderem durch Fehler beim Sammeln oder Erstellen von Daten, beispielsweise durch Vertipper oder Zahlendreher, und können maschinell erkannt und behandelt werden.
Daten und Use Case ergeben ein Match
Der entscheidende Punkt in Sachen Datenqualität lautet: Die Daten sollten möglichst gut zum Use Case passen. Dazu machen Unternehmen einen Anwendungsfall für bestehende Daten ausfindig – was sich nicht selten als Herausforderung erweist – oder entwerfen einen Datensatz, der zu einem vorhandenen Use Case passt. Letzteres ist mit hohem Aufwand verbunden. Der Mittelweg ergänzt bestehende Daten um für einen bestimmten Use Case zusätzlich erstellte Daten und kristallisiert sich als bewährte Herangehensweise für mittelständische Unternehmen heraus.
Trainingsdatensätze dienen dazu, die Welt möglichst realistisch abzubilden. Der immensen Datenvielfalt geschuldet, erfüllt nur eine Minderheit der KI-Anwendungsfälle das Ziel. Enthält der Trainingsdatensatz viele Beispiele, die im echten Einsatz potenziell vorkommen, unterstützt dieser Faktor das Training enorm. Auf diese Weise gelingt es, unterschiedliche Parameter des Modells so einzustellen, dass es eine hinreichende Performance erlangt. Ein anschauliches Beispiel: Damit ein KI-Tool Hunderassen anhand von Bildern klassifiziert, muss dem Trainingsdatensatz umfangreiches Bildmaterial jeder Hunderasse vorliegen.
Optimale Datenbasis für KI
Das Geheimnis guter Datenqualität liegt darin, Daten und Use Case in Einklang zu bringen. Entweder ergeben ein entdeckter Anwendungsfall und vorhandene Daten ein Match oder Unternehmen entwickeln passende Datensätze für einen gefunden Use Case. So reibungslos wie dargestellt, funktioniert es in der Praxis selten von Beginn an. Doch es existieren Methoden, die darin unterstützen, das Beste aus einem Datensatz herauszukitzeln. Experten fügen Trainingsbeispiele manuell hinzu, wenn es von deren Typ bislang wenige gibt. In der Umsetzung heißt das: Entwickler denken sich ein fiktives, aber realistisches Trainingsbeispiel mit all seinen Werten aus.
(pd/Brandmauer AI Solutions)