Eine große Herausforderung bei der KI-Entwicklung ist der Aufwand, der erforderlich ist, um reale Daten zu beschaffen und zu kennzeichnen.
Eine Gartner-Umfrage aus dem Jahr 2023 identifizierte die Datenverfügbarkeit als eines der fünf größten Hindernisse bei der Implementierung von generativer KI. Synthetische Daten können helfen, dieses Problem zu lösen.
Mit einem um Größenordnungen geringeren Datenschutzrisiko als echte Daten können synthetische Daten eine Reihe von Möglichkeiten eröffnen, um Machine-Learning-Modelle (ML) zu trainieren und Daten zu analysieren, die nicht verfügbar wären, wenn echte Daten die einzige Option wären.
Wir haben uns mit Alys Woodward, Senior Director Analyst bei Gartner, zusammengesetzt, um zu verstehen, wie synthetische Daten Herausforderungen in Bezug auf Datenschutz, Compliance und Datenanonymisierung überwinden können, und haben uns auch mit den Problemen befasst, die ihrer weitverbreiteten Einführung im Wege stehen.
Wie können synthetische Daten Organisationen dabei helfen, Datenschutzherausforderungen beim Training ihrer KI/ML- oder Computer-Vision-Modelle (CV) zu bewältigen?
Alys Woodward: Synthetische Daten können Informationssilos überbrücken, indem sie als Ersatz für echte Daten dienen und keine sensiblen Informationen wie persönliche Details und geistiges Eigentum preisgeben. Da synthetische Datensätze statistische Eigenschaften beibehalten, die den Originaldaten sehr ähnlich sind, können sie präzise Trainings- und Testdaten produzieren, die für die Modellentwicklung entscheidend sind.
Das Training von CV-Modellen erfordert oft eine große und vielfältige Menge an gekennzeichneten Daten, um hochgenaue Modelle zu erstellen. Die Beschaffung und Verwendung echter Daten für diesen Zweck kann eine Herausforderung sein, insbesondere wenn es sich um personenbezogene Daten (PII) handelt.
Zwei häufige Anwendungsfälle, die PII-Daten erfordern, sind die ID-Verifizierung und automatisierte Fahrerassistenzsysteme (ADAS), die Bewegungen und Aktionen im Fahrerbereich überwachen. In diesen Situationen können synthetische Daten nützlich sein, um eine Reihe von Gesichtsausdrücken, Hautfarben und -texturen sowie zusätzliche Objekte wie Hüte, Masken und Sonnenbrillen zu generieren. ADAS erfordert auch, dass KI für schlechte Lichtverhältnisse trainiert wird, wie z.B. das Fahren im Dunkeln.
Wie können synthetische Daten die Herausforderungen bei der Datenanonymisierung reduzieren?
Alys Woodward: Bemühungen, Datensätze manuell zu anonymisieren und zu de-identifizieren – also Informationen zu entfernen, die einen Datensatz mit einer bestimmten Person verknüpfen – sind oft zeitaufwendig, arbeitsintensiv und fehleranfällig. Letztendlich kann dies Projekte verzögern und die Iterationszykluszeit für die Entwicklung von Machine-Learning-Algorithmen und -Modellen verlängern. Synthetische Daten können viele dieser Fallstricke überwinden, indem sie einen schnelleren, kostengünstigeren und einfacheren Zugang zu Daten ermöglichen, die den Originaldaten ähnlich, für den Einsatz geeignet und datenschutzkonform sind.
Wenn manuell anonymisierte Daten mit anderen öffentlich verfügbaren Datenquellen kombiniert werden, besteht zudem das Risiko, dass versehentlich Informationen preisgegeben werden, die zu einer Re-Identifikation der Daten führen und somit den Datenschutz verletzen könnten. Führungskräfte können Techniken wie Differential Privacy einsetzen, um sicherzustellen, dass aus echten Daten generierte synthetische Daten ein sehr geringes Risiko der De-Anonymisierung aufweisen.
Trotz der offensichtlichen Vorteile synthetischer Daten, was sind einige der Herausforderungen, die ihre weite Verbreitung behindern?
Alys Woodward: Die Erstellung eines synthetischen tabellarischen Datensatzes erfordert einen Balanceakt zwischen Datenschutz und Nützlichkeit, um sicherzustellen, dass die Daten nutzbar bleiben und den Originaldatensatz genau repräsentieren. Ist die Nützlichkeit zu hoch, kann der Datenschutz gefährdet sein, besonders bei einzigartigen oder charakteristischen Datensätzen, da der synthetische Datensatz mit anderen Datenquellen abgeglichen werden könnte. Umgekehrt können Methoden zur Verbesserung des Datenschutzes, wie das Trennen bestimmter Attribute oder das Einführen von ‚Rauschen‘ durch Differential Privacy, die Nützlichkeit des Datensatzes verringern.
In den vergangenen Jahrzehnten des Datenmanagements war die geringe Qualität von Transaktionsdaten eine anhaltende Herausforderung. Zum Beispiel könnten Call-Center-Mitarbeiter versäumen, vollständige Adressdaten oder Kundeninformationen einzugeben. Diese fehlenden Daten können Analysen verhindern. Um dem entgegenzuwirken, mussten IT-Organisationen Geschäftsanwender darüber aufklären, wie wichtig eine gute Datenqualität sowohl für Anwendungen als auch für Analysen ist. „Garbage in means garbage out“ (Müll rein bedeutet Müll raus) war das allgemein akzeptierte Prinzip. Dies beeinflusst nun jedoch die Einstellung der Menschen zu synthetischen Daten, da sie glauben, diese müssten minderwertig sein, weil es sich nicht um echte Daten handelt, was die Akzeptanz verzögert. In Wirklichkeit können synthetische Daten besser sein als echte Daten, nicht in der Art und Weise, wie sie die aktuelle Welt darstellen, sondern wie sie KI-Modelle trainieren können, um mit der idealen oder zukünftigen Welt zu arbeiten.
Ein synthetischer Datensatz spiegelt den Originaldatensatz wider. Wenn das Original daher keine ungewöhnlichen Vorkommnisse oder „Randfälle“ enthält, werden diese auch nicht im synthetischen Datensatz auftauchen. Dies ist besonders wichtig für synthetische Bild- und Videodaten in Bereichen wie dem autonomen Fahren, wo viele Stunden Fahrtaufnahmen zum Training der KI verwendet werden. Ungewöhnliche Situationen wie Einsatzfahrzeuge, Fahren im Schnee oder Tiere auf der Straße müssen jedoch extra erstellt werden.