Datenqualität und KI – einmal investieren, mehrfach profitieren

Künstliche Intelligenz, KI, Datenqualität, Daten

Der Erfolg eines jeden KI-Projekts steht und fällt mit der Qualität der darunter liegenden Daten. KI-Modelle benötigen hochwertige Daten, um fundierte Entscheidungen zu treffen. Bei minderwertiger Datenqualität leidet die Leistung und Genauigkeit der Modelle erheblich.

Faktoren der Datenqualität

Verschiedene Faktoren wie unvollständige oder fehlerhafte Daten sowie Datenverzerrungen können die Datenqualität beeinträchtigen. Daten gründlich und sorgfältig aufzubereiten, ist daher unerlässlich, um KI-Modelle effektiv zu implementieren. Damit dies gelingt, sind einige Schritte erforderliche – und damit sich der Aufwand für Unternehmen lohnt, sollten sie die hochwertigen Daten möglichst effektiv für weitere Anwendungsfälle nutzen.

Anzeige

Unternehmen werden nicht daran vorbei kommen, bereits vorhandene Daten zu prüfen und zu bewerten. Denn Daten, die keinen klaren Bezug zum vorgesehenen KI-Modell haben, könnten dessen Genauigkeit beeinträchtigen und sollten tendenziell aussortiert werden. Ein weiterer Faktor ist die Aktualität der Daten, da sich in einigen Branchen die Informationen rasch verändern. Beispielsweise können KI-Modelle nur sinnvolle Forecasts und Empfehlungen für Investments tätigen, wenn sie auf aktuelle Finanzdaten zurückgreifen. Verfälschte, unvollständige oder inkonsistente Daten sollten korrigiert, ordnungsgemäß strukturiert und im Zweifel gelöscht werden, um die Leistung des KI-Modells zu verbessern.

Die sechs Qualitäts-Faktoren für die Auswahl und Bereitstellung der Daten von KI-Modellen:

1. Inkonsistente Daten

Mehrdeutige Daten erschweren es dem KI-Modell, den Sinn, den diese Daten repräsentieren, richtig zu deuten. Ein typisches Beispiel sind so genannte homonyme Wörter: also ein Wort, das je nach Kontext eine unterschiedliche Bedeutung hat (das Wort “Bank” kann eine Sitzgelegenheit, aber auch eine Finanzinstitution beschreiben). Auch unklare Abkürzungen können darunter fallen. Warnsignale sind beispielsweise Widersprüche in den Daten, etwa Inkongruenzen zwischen dem angegebenen Alter und Geburtsdatum eines Nutzers.

Anzeige
Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

2. Unvollständige Daten

Daten mit fehlender Information oder fehlenden Merkmalen erschweren es KI-Modellen, genaue Vorhersagen zu treffen. Ein Beispiel hierfür ist das Fehlen bestimmter Zeitpunkte in Zeitreihendaten oder unvollständige Geodaten, bei denen Informationen zu bestimmten Räumen oder Orten fehlen. Zusätzlich empfiehlt es sich, gewisse Standards zu beachten, beispielsweise hinsichtlich einheitlicher Datenformate.

3. Verzerrte Daten

Datenverzerrung tritt auf, wenn Daten nicht die Realität abbilden und somit zu fehlerhaften Vorhersagen der KI führen. Dies ist der Fall, wenn Trainingsdaten bestimmte Gruppen unter- oder überrepräsentieren und nicht die Gesamtpopulation korrekt widerspiegeln. Eine solche Verzerrung kann zu Diskriminierung führen, da das Modell aufgrund dieser ungleichen Verteilung falsche Annahmen trifft.

4. Fehlerhafte Daten

Datenfehler, wie beispielsweise Ausreißer oder Duplikate, können die Datenqualität beeinflussen und zu verfälschten Ergebnissen führen. Eine gründliche Bereinigung ist unerlässlich. Auch (nahezu) identische Daten in einem Datensatz sollten identifiziert und behoben werden, um eine verlässliche Grundlage zu gewährleisten.

5. Daten zentralisieren

Die Zentralisierung beseitigt Datensilos, indem alle Informationen an einem zugänglichen Ort gesammelt werden. Daten können dadurch effizienter erfasst, gespeichert und abgefragt werden. Parallel dazu ist es ratsam, einen Datenkatalog zu implementieren. Denn in unserer dezentralen und agilen Arbeitswelt werden Daten weiterhin an verschiedenen Orten entstehen und gespeichert werden.

Ein Datenkatalog gewährt in diesem Fall eine zentrale Übersicht, damit hochwertige Daten trotzdem gemeinschaftlich über mehrere Abteilungen hinweg genutzt werden. Ein solcher Datenkatalog fördert somit Transparenz und Zusammenarbeit innerhalb der Organisation, da er einen übersichtlichen Zugang zu den vorhandenen Datenbeständen bietet und operative Prozesse unterstützt. Da der Wert von Daten in ihrer Nutzung liegt, wird ein zentraler Katalog auch andere Geschäftsabteilungen in die Lage versetzen, bessere Erkenntnisse zu gewinnen, Datenprodukte zu erstellen und das wahre Potenzial von Daten freizusetzen.

6. Skalierbarkeit gewährleisten

Unternehmen orientieren sich häufig am Return-On-Investment, um zu entscheiden, ob sie ein neues KI-Modell implementieren oder nicht. Überwiegt der Mehrwert oder die Kosten? Und wie hoch ist das Risiko? Bevor Unternehmen nun aufgrund der erforderlichen Ressourcen für die Datenaufbereitung das Implementieren von KI-Modellen auf die lange Bank schieben, sollten sie andere Schritte in Erwägung ziehen. Beispielsweise: Welche weiteren KI-Modelle erfordern ähnliche Daten? Wie kann die Organisation durch anderweitig von den qualitativ hochwertigen Daten profitieren?

So kann es zwar eine durchaus mühselige Aufgabe sein – sie zahlt sich aber langfristig aus; insbesondere wenn es Organisationen gelingt, die einmal zentralisierten Daten für mehrere Anwendungsfälle zu skalieren. Gut gepflegte und zentralisierte Daten sind nicht nur für die KI-Modelle von Vorteil , sondern auch für verschiedene Anwendungsfälle innerhalb des Unternehmens. Die Möglichkeit, einmal zentralisierte Daten für vielfältige Zwecke zu skalieren, stärkt nicht nur die Effizienz und Genauigkeit der KI-Modelle, sondern optimiert auch die betrieblichen Abläufe insgesamt. So können Unternehmen einen nachhaltigen Mehrwert aus ihren Daten ziehen und ihre Analysefähigkeiten über einzelne Projekte hinaus erweitern.

David Talaga Dataiku

David

Talaga

Product Marketing Direktor

Dataiku

David Talaga, ein erfahrener Daten- und KI-Experte, ist derzeit als Product Marketing Direktor bei Dataiku tätig und spezialisiert auf MLOps und KI-Governance. Nach Stationen als Datenanalyst im Gesundheitswesen und Senior-Positionen für Produktmarketing bei Dassault Systèmes und Microsoft kam er 2017 zu Talend und verfasste Whitepapers zu Datenqualität und Governance.
Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.