Daten sind die Lebensader für digitale Unternehmen. Der Zugang zu realen Daten, die von hoher Qualität sind (das bedeutet sauber, gut beschriftet und auf Verzerrungen geprüft), ist jedoch oft eine Herausforderung. Synthetische Daten versprechen einige dieser Herausforderungen zu lindern und relative zügig bessere KI-Initiativen zu ermöglichen.
Schätzungen zufolge wird bis 2025 die Verwendung synthetischer Daten und des Transfer-Lernens das Volumen der für das Maschinelle Lernen (ML) benötigten realen Daten um bis zu 70 Prozent reduzieren. Ebenfalls bis 2025 werden synthetische Daten die Erhebung personenbezogener Kundendaten verringern und dadurch viele Sanktionen durch Verletzung der Privatsphäre von Kunden vermieden. Ein aktuelles Beispiel ist Amazon: Das Unternehmen beschleunigte seine Alexa-Unterstützung für neue Sprachen (wie Hindi, Spanisch und brasilianisches Portugiesisch) durch die Verwendung synthetischer Textdaten.
Was steckt hinter dem Begriff?
Synthetische Daten sind künstlich erzeugte Daten. Dafür gibt es unterschiedliche Methoden, beispielsweise Regelwerke (Data Augmentation genannt), semantische Ansätze, generative adversarische Netzwerke oder die Erstellung von Simulationsszenarien, in denen Modelle und Prozesse interagieren, um neue Datensätze von Ereignissen zu erzeugen. Unternehmen verwenden synthetische Daten auf unterschiedliche Weise: entweder vollständig synthetisch – das bedeutet ohne reale Daten – oder in einer hybriden Form, was häufiger vorkommt. Hier werden die realen durch synthetische Daten ergänzt oder ersetzt. Oder synthetische Daten werden verwendet, um die Datenverteilung auszugleichen und eine angemessene Menge an Daten für verschiedene Fälle bereitzustellen.
Nutzen und Einsatzmöglichkeiten
Die Verwendung synthetischer Daten in der Datenpipeline und in der Produktentwicklung bietet greifbare Vorteile, zum Beispiel in einer höheren Genauigkeit von ML-Modellen. Daten aus der realen Welt sind meist zufällig beobachtet und enthalten nicht alle Permutationen von Bedingungen oder Ereignissen, die in der realen Welt möglich sind. Synthetische Daten können dem entgegenwirken. Mehr Permutationen von Ereignisdaten und die Tatsache, dass synthetische Daten teilweise automatisch beschriftet werden können, führen zu genaueren Modellen. Der heutige Stand der Technik in den Bereichen Computer Vision und natürliche Sprache ist, synthetische und reale Daten in Verbindung zu verwenden, um Modelle mithilfe von Transfer Learning zu trainieren.
Ein weiterer Vorteil ist eine schnellere Datenpipeline. Durch die Umstellung auf synthetische Daten können Unternehmen interne Prozesse, langwierige vertragliche Bemühungen, rechtliche Hindernisse (Stichwort: DSVGO) oder Herausforderungen beim Hosting beschleunigen (oder vermeiden). Zudem verringern synthetische Daten den Zeit- und Kostenaufwand für die Erstellung, den Kauf, die Erfassung und die Kennzeichnung von Daten und verbessern die Qualität. Und sie ermöglichen Unternehmen schneller und sicherer zu experimentieren. Synthetische Daten “entschlüsseln” Signale in privaten und sensiblen Daten, die sonst nicht untersucht werden könnten.
Auf Risiken achten
Synthetische Datentechniken schneiden in Bezug auf Kosteneffizienz und Schutz der Privatsphäre gut ab. Es gibt aber auch etliche Risiken und Einschränkungen zu berücksichtigen. So decken synthetische Daten häufig nicht alle Feinheiten der realen Welt ab. Auch können sie einen sogenannten Bias haben, und damit Fairness und Erklärbarkeit in Frage stellen (Stichwort: eXplainable AI – XAI).
Die Qualität synthetischer Daten hängt häufig von der Qualität des Datengenerators ab. Wenn sich die Ausgangsdatensätze ändern, müssen die synthetischen Daten mit den neuen Merkmalen erneut generiert werden, um eine sinnvolle Modellgenauigkeit zu ermöglichen. Die Verwendung synthetischer Daten erfordert zusätzliche Überprüfungsschritte. Dazu gehört der Vergleich von Modellergebnissen mit von Menschen kommentierten, realen Daten, um die Genauigkeit der Ergebnisse zu gewährleisten.
Abgesehen von den technologischen Herausforderungen kann die Skepsis der Nutzer den Einsatz von synthetischen Daten erschweren, wenn sie diese als “minderwertig” oder “gefälscht” wahrnehmen. Mit der zunehmenden Verbreitung synthetischer Daten wird es vermehrt Fragen zur Offenheit der Datengenerierungstechniken und zur Wirksamkeit einer vollständigen Datenschutzgarantie geben, insbesondere in sensiblen Anwendungsfällen wie klinischen Studien oder demografischen Erhebungen.
Empfehlungen für Unternehmen
Unternehmen, die den Einsatz synthetischer Daten planen, sollten mit ihren Analyse-, Sicherheits- und juristischen Teams Richtlinien für die Nutzung entwickeln. Es ist wichtig, alle Prozessbeteiligten durch Schulungen über die Vorteile und Grenzen synthetischer Daten aufzuklären. Mit gemeinsam entwickelten Richtlinien lassen sich Risiken vermeiden, wie beispielsweise Skepsis der Nutzer, unzureichende Datenvalidierung etc. Um Aussagen des Anbieters zu überprüfen und die Eignung für den Anwendungsfall zu bestätigen, eignet sich am besten ein Proof of Concept (PoC, Machbarkeitsstudie). Unternehmen sollten Anbieter wählen, die realistische synthetische Datensätze für ihre Anwendungsfälle generieren können, Tools zur Messung der Effektivität bereitstellen und Datenschutzfilter zur Einhaltung von Vorschriften und internen Compliance-Vorgaben bieten. Analysen zu geschäftlichem Nutzen, Erfolgen sowie Misserfolgen bieten eine gute Grundlage für eine kontinuierliche Erforschung und realistische Einschätzung der laufenden Projekte bzgl. synthetischer Daten.
Es mag verlockend sein, synthetische Daten als “gefälschte Daten” abzutun, aber genau darin liegt ihre Stärke. Synthetische Daten können für spezifische Bedürfnisse oder Bedingungen generiert werden, die in realen Daten nicht vorhanden sind, was sie potenziell kontextbezogen, domänenspezifisch und datenschutzfreundlich macht. Sie sind in der Lage, eine der kritischsten Herausforderungen zu lösen, mit denen KI-Systeme heute konfrontiert sind: den Mangel an gehaltvollen Daten in ausreichender Menge zu vernünftigen Kosten.