Deepfake-Detektoren, die manipulierte Videos erkennen sollen, lassen sich durch passende Veränderungen von Video-Frames gut austricksen.
Dies haben Informatiker der University of California, San Diego (UCSD) in einer Studie erstmals nachgewiesen. Das gilt demnach auch, wenn ein Angreifer die Funktionsweise der Erkennungssoftware nur grob kennt. Der Ansatz der Informatiker funktioniert zudem selbst dann, wenn Videos komprimiert und dekomprimiert werden.
Gezielte Bildtransformationen
Deepfakes sind mithilfe von KI gefälschte Videos. Gängig ist besonders, Gesichter in Situationen zu zeigen, die so nie stattgefunden haben, wie in gefälschten Pornos. Solche Videos taugen als Propaganda-Waffen. Deshalb gibt es auch maschinenlernende KI-Systeme, die der Erkennung solcher Deepfakes dienen. Doch die Detektoren lassen sich der UCSD-Studie zufolge gut austricksen. „Wir zeigen, dass es möglich ist, robuste adversarielle Deepfakes zu erstellen, selbst wenn ein Angreifer die innere Funktionsweise des vom Detektor verwendeten maschinellen Lernmodells nicht kennt“, sagt der Computertechnik-Doktorand Shehzeen Hussain.
Deepfake-Detektoren konzentrieren sich meist auf die Gesichter in Videos. Denn eben da enthalten die Fälschungen oft Fehler. Beispielsweise ist das Augenzwinkern meist nicht realistisch. Der Ansatz, Erkennungssysteme auszutricksen, besteht nun im Prinzip darin, diese durch passende Veränderungen der Video-Frames dazu zu verleiten, Bilder fälschlich doch als echt einzustufen. Dazu versucht der Angriffs-Algorithmus zunächst mittels Test-Frames einzuschätzen, wie ein Detektor auf verschiedene, mit freiem Auge unbemerkbare Bildtransformationen reagiert und was er als echt einstuft. Dann verändert er alle Gesichter in einem Deepfake so, dass die Transformation wohl fälschlich als echt eingestuft wird.
Erschreckend effektive Arbeit
Wenn genaue Details dazu bekannt sind, wie eine Deepfake-Erkennung funktioniert, kann diese Form des Angriffs Tests zufolge über 99 Prozent der unkomprimierten Deepfakes als echt verkaufen. Selbst wenn die Funktionsweise nur in groben Zügen bekannt ist, sind es noch über fünf Sechstel. Zudem nutzt der Algorithmus Transformationen, die im Gegensatz zu einfacheren Angriffen auch eine Kompression meist gut überstehen. Ist genau bekannt, wie ein Detektor funktioniert, können ihn daher auch knapp 85 Prozent der komprimierten Deepfakes täuschen, im Fall einer nur grob bekannten Funktionsweise sind es immerhin noch über drei Viertel.
Da sich aktuelle Deepfake-Detektoren derart gut täuschen lassen, raten die UCSD-Informatiker dazu, solche Systeme entsprechend zu testen und zu entwickeln. Sinnvoll wäre demnach, eine Erkennungs-KI in der Trainingsphase gegen einen KI-Gegner wie ihren Algorithmus antreten zu lassen. Dadurch würde der Detektor letztlich lernen, immer bessere Deepfakes mit immer clevereren Bildtransformationen als Fälschungen zu erkennen.
www.pressetext.com