Sicherheitsforscher haben eine bedeutsame Schwachstelle im KI-Sprachmodell ChatGPT aufgedeckt. Diese ermöglichte es, die eingebauten Schutzmechanismen des Systems zu umgehen – mit potenziell weitreichenden Folgen.
Marco Figueroa, der bei der Mozilla Foundation das Programm zur Aufdeckung von KI-Sicherheitslücken leitet, demonstrierte die Schwachstelle im Rahmen des sogenannten 0Din-Programms. Das 0Din-Programm setzt Prämien von bis zu 15.000 Dollar für die Aufdeckung kritischer Sicherheitslücken aus. Es fokussiert sich dabei auf verschiedene Arten von Sicherheitsproblemen, darunter die gezielte Manipulation von Eingabeaufforderungen und mögliche Denial-of-Service-Attacken. Dieses erst kürzlich ins Leben gerufene Projekt zeigt bereits erste Früchte.
Eine neu entdeckte Sicherheitslücke nutzt eine überraschend simple Methode: Durch die Umwandlung problematischer Anweisungen in das hexadezimale Zahlensystem konnten die Sicherheitsvorkehrungen von ChatGPT ausgehebelt werden. Noch bemerkenswerter: Auch die Verwendung von Emojis erwies sich als efektiver Weg, die Schutzmaßnahmen zu unterlaufen.
Wenn ein Benutzer den Chatbot auffordert, einen Exploit für eine bestimmte CVE (Common Vulnerabilities and Exposures) zu schreiben, wird er darüber informiert, dass diese Anfrage gegen die Nutzungsbedingungen verstößt. Wenn die Anfrage jedoch in hexadezimaler Form kodiert war, wurden die Schutzmaßnahmen umgangen. In diesem Fall hat ChatGPT laut Figueroa nicht nur den Exploit geschrieben, sondern auch versucht, ihn “gegen sich selbst” auszuführen. „Diese Umgehungsmöglichkeit der Schutzmaßnahmen verdeutlicht die Notwendigkeit ausgereifterer Sicherheitsmechanismen in KI-Modellen, insbesondere im Hinblick auf die Verarbeitung kodierter Anweisungen”, erläutert Figueroa.
OpenAI hat nach Bekanntwerden der Schwachstelle umgehend reagiert. Versuche, die beschriebenen Methoden zu reproduzieren, blieben erfolglos, was auf eine schnelle Behebung der Sicherheitslücke hindeutet.
Die Entdeckung reiht sich ein in eine wachsende Zahl von Sicherheitslücken, die in jüngster Zeit bei führenden Sprachmodellen aufgedeckt wurden. Erst kürzlich identifizierten Forscher von Palo Alto Networks eine Methode namens „Deceptive Delight”, bei der problematische Inhalte in harmlos erscheinende Narrative eingebettet werden.