Die KI ist momentan allgegenwärtig und das im wahrsten Sinne des Wortes. Thomas Kress beleuchtet die Risiken und die Chancen der Stimmennachahmung, die auf künstlicher Intelligenz basiert und die eine neue Zeit der technologischen Innovation eingeläutet hat. Ist eine Audioaufnahme echt oder steckt ein Deep Fake einer KI dahinter?
Die Frage nach der Authentizität der künstlich reproduzierten menschlichen Stimmen wird häufig gestellt. Der Gastbeitrag von Thomas Kress, dem Experten für KI-basierte Stimmen, gibt Aufschluss über die Möglichkeiten und über die Gefahren, die diese technologische Innovation mit sich bringt.
Chancen und Vorteile der KI-Stimmenimitation
Jede menschliche Stimme hat einen hohen Wiedererkennungswert, sie ist einzigartig und ein wichtiger Bestandteil der Sympathie. Nicht allein im direkten Gespräch, sondern auch bei Film und Fernsehen spielt die Stimme eine essenzielle Rolle. Schauspieler und Figuren werden an ihrer Stimme wiedererkannt, so zum Beispiel der seit Jahrzehnten bekannte Pumuckl. Diese beliebte Kinderfigur hat in der neuen Ausführung seine originale Stimme dank KI behalten, obwohl sein Sprecher, Hans Clarin, bereits im Jahr 2005 verstarb. Um eine menschliche Stimme authentisch nachzuahmen, benötigt ein KI-Tool wie VALL-E gerade einmal drei Sekunden Text. Für die künstliche Intelligenz ist es laut Microsoft einfach, aus diesem kurzen Moment alle Tonlagen und die emotionale Färbung der Originalstimme zu imitieren.
Wer an Lautsprecherdurchsagen an Bahnhöfen oder an Flughäfen denkt, erinnert sich an die oft unverständlichen Ansagen. Diesem Problem kann mit KI-basierter Stimmennachahmung begegnet werden, wodurch die Durchsagen mit gleichem Inhalt, aber viel verständlicher erfolgen. Die KI-Stimmenimitation ist eine Chance für verschiedene Branchen, in denen die stimmliche Emotionalität wichtig ist. Sie kann Stimmen bereits verstorbener Künstler präzise nachahmen und so dafür sorgen, dass die Stimme erhalten bleibt und weiter erklingt. Doch darin liegt auch ein Risiko, das neue Sicherheitstechnologien notwendig macht und viele Anwendungsbereiche überdenken lässt.
Risiken menschlich klingender Stimmennachahmung
Die Chance und die Gefahr liegen dicht beieinander. So könnte die KI-Stimmennachahmung Synchronsprecher und Ansager an Bahnhöfen und Flughäfen obsolet machen und Arbeitsplätze kosten. Der Beruf des Nachrichtensprechers wird unnötig und Werbung kann durch künstliche Intelligenz völlig interaktiv werden. Hierbei handelt es sich um Risiken, die zwar in einigen Branchen Veränderungen bewirken und einen Mitarbeiterabbau fördern, doch eine wirkliche Gefahr für die Wirtschaft und die Sicherheit stellen sie nicht dar. Anders sieht es bei missbräuchlicher Anwendung aus. Aktuell ist die KI-Stimmennachahmung mit dieser Authentizität noch nicht öffentlich auf dem Markt, doch wenn der Zeitpunkt kommt, kann dies zu einem Anstieg der Cyberkriminalität führen.
In der Wirtschaft und in der Politik, aber auch in der Kleinkriminalität sind starke Auswirkungen denkbar. Kein Pressesprecher kann beim Telefongespräch sicher sein, ob er wirklich vom echten Politiker oder von einer KI-Stimmnachahmung angerufen wird. Ebenso verhält es sich bei Unternehmen, die zur Beweissicherung Sprachaufzeichnungen nutzen – beispielsweise bei telefonischen Bestellungen oder bei Handelsgeschäften mit Wertpapieren. Kann eine Stimme manipuliert und authentisch nachgeahmt werden, sind diese Aufzeichnungen wertlos. Hört der Angerufene nur eine Stimme, ohne das Gesicht des Sprechers zu sehen, ist nicht ersichtlich, ob die Person am anderen Ende der Leitung echt oder ein Fake ist.
Der klassische Enkeltrick, heute noch mit verstellter Stimme praktiziert, würde durch die KI-Stimmennachahmung für Kriminelle ein Kinderspiel. Wenn drei Sekunden Text ausreichen, um die Stimme des Enkels mit allen Emotionen in der richtigen Tonlage nachzuahmen, stellt dieser Betrug für Kriminelle keine Herausforderung mehr dar. Selbst bei Videotelefonaten besteht dieses Risiko, da es schon heute möglich ist, Personen in ein Video einzufügen und die KI-Stimme zu verwenden. Cyberkriminelle beobachten die Entwicklung des Marktes mit Spannung, da immer neue Entwicklungen dafür sorgen können, dass die hier beschriebenen Szenarien bald in Echtzeit möglich sind.
Echt oder KI? Eine nicht leicht zu beantwortende Frage!
Ist eine Telefonstimme zu hören, steht die Frage, ob es die echte Stimme oder eine KI ist, im Raum. In Zeiten, in denen Sprachaufzeichnungen zur Absicherung telefonischer Aufträge aufgenommen werden, ist das ein erhebliches Risiko. Da mit speziellen Tools die Möglichkeit besteht, die KI zu lehren und ihr die Stimme eines jeden Menschen anzutrainieren, ist die Aufzeichnung von Anrufen keine wirkliche Sicherheit mehr. Aus diesem Grund gibt es einige Bedenken, die durch die KI-basierte Stimmennachahmung laut werden.
Für Sicherheitsexperten wie Thomas Kress ist das mehr als ein Bedenken, er sieht darin ein erhöhtes Risiko für Cyberkriminalität und eine erhebliche Gefahr für die finanzielle und existenzielle Sicherheit Betroffener. Der Gesprächspartner kann nicht unterscheiden, ob es sich um eine KI-Stimme oder um einen echten Anruf handelt. Trotz zahlreicher positiv konnotierter Anwendungsbereiche steht die Frage im Raum: Wohin wird es führen und wie lässt sich zukünftig die Telefonstimme eines echten Anrufers von einer KI-Stimmenimitation unterscheiden?
Es wird schwierig, denn die authentische und absolut präzise Stimmnachahmung durch künstliche Intelligenz ist nicht von der Originalstimme zu unterscheiden. Aktuell sind die Tools noch nicht öffentlich verfügbar, doch wenn der Zeitpunkt gekommen ist, fällt es sehr schwer, einen Originalanrufer von einer KI-Stimme zu unterscheiden. Gleiches passiert laut Experten auch mit Bildern, die bei Videocalls zu sehen sind. Es ist bereits möglich, Personen einzufügen und so zu suggerieren, mit echten Menschen und nicht mit der KI zu sprechen.
Fazit
Die KI-basierte Stimmnachahmung bringt einige Chancen aber auch viele Risiken mit sich. Thomas Kress, Experte auf diesem Gebiet, beschäftigt sich seit vielen Jahren mit den Auswirkungen der KI-Stimmnachahmung in der Telekommunikation und er weiß, welche Risiken für Unternehmen und Institutionen bestehen. Die neue Technologie lässt sich nicht aufhalten und es ist nur eine Frage der Zeit, bis die KI-Stimmnachahmung frei verfügbar ist und bis die Risiken zunehmen werden.