Das Cybersecurity-Forschungsteam Unit 42 von Palo Alto Networks hat schwerwiegende Sicherheitslücken in den DeepSeek-Sprachmodellen aufgedeckt. In einer detaillierten Analyse demonstrieren die Sicherheitsexperten, wie sich die Schutzmaßnahmen des KI-Systems durch drei verschiedene Angriffstechniken systematisch aushebeln lassen.
Besonders besorgniserregend sei die Methode „Bad Likert Judge“, bei der das Modell durch geschickt formulierte Folgeabfragen zur Preisgabe sensibler Informationen gebracht werden konnte. Die Forscher erhielten dabei nicht nur theoretische Konzepte, sondern konkrete Anleitungen für Cyberangriffe, darunter detaillierte Beschreibungen zur Implementierung von Keyloggern und Datenexfiltrationstechniken.
Die „Crescendo“-Methode nutzt einen stufenweisen Ansatz: Durch eine Verkettung scheinbar harmloser Anfragen konnte das Team das Modell dazu bringen, zunehmend bedenkliche Inhalte zu generieren. Am Ende dieser Eskalationskette stand sogar eine präzise Bauanleitung für gefährliche Sprengkörper.
Raffiniert erscheint auch die „Deceptive Delight“-Strategie. Hier gelang es den Forschern, das Modell in einem scheinbar harmlosen Gesprächskontext zur Generierung von funktionsfähigem Schadcode zu bewegen. Das результат war ein komplexes Skript, das DCOM-Schwachstellen in Windows-Systemen ausnutzt und Remote-Code-Execution ermöglicht.
„Diese Erkenntnisse sind alarmierend“, kommentiert das Forschungsteam. „Sie zeigen fundamentale Schwachstellen in den derzeit implementierten Sicherheitsmechanismen auf.“ Besonders kritisch sehen die Experten, dass die erfolgreichen Angriffe möglicherweise nur die Spitze des Eisbergs darstellen. Die Vermutung liegt nahe, dass noch weitere, bisher unentdeckte Jailbreaking-Methoden existieren könnten.
Für Betreiber von KI-Systemen unterstreichen diese Ergebnisse die Notwendigkeit verbesserter Sicherheitskonzepte. Insbesondere die Robustheit gegen mehrstufige Manipulationsversuche muss deutlich erhöht werden. Die Studie macht deutlich, dass die bisherigen Schutzmechanismen gegen systematische Jailbreaking-Angriffe nicht ausreichen.