CyberArk hat mit FuzzyAI ein innovatives quelloffenes Framework vorgestellt, das bislang für jedes getestete KI-Modell einen Jailbreak gefunden hat.
Es hilft Unternehmen, Schwachstellen in ihren KI-Modellen zu identifizieren und zu beheben, etwa das Umgehen von Guardrails oder die Generierung von schädlichen Inhalten. FuzzyAI lässt sich auf alle KI-Modelle anwenden, die in der Cloud und intern gehostet werden.
KI-Modelle sind die Basis für innovative Anwendungen zur Interaktion mit Kunden sowie zur Verbesserung und Automatisierung interner Prozesse. Sie transformieren die Wirtschaft, doch der Einsatz der Modelle geht mit neuen Herausforderungen im Sicherheitsbereich einher, auf die die meisten Unternehmen nicht vorbereitet sind.
FuzzyAI hilft ihnen, diese Herausforderungen zu bewältigen, indem es einen systematischen Ansatz für das Testen von KI-Modellen gegen verschiedene gefährliche Eingaben liefert. Auf diese Weise deckt es potenzielle Schwächen in den Sicherheitssystemen des Modells auf und macht die Entwicklung und die Bereitstellung von KI sicherer. Herzstück von FuzzyAI ist ein sogenannter Fuzzer – ein Tool, das Software-Defekte und Software-Schwachstellen aufspürt. Es versteht sich auf mehr als zehn verschiedene Angriffstechniken, vom Umgehen ethischer Filter bis hin zur Aufdeckung versteckter System-Prompts.
Die wichtigsten Funktionen von FuzzyAI sind:
Umfassendes Fuzzing: FuzzyAI testet KI-Modelle mit verschiedenen Angriffstechniken, um Schwachstellen zu entdecken, etwa das Umgehen von Guardrails, Informationslecks, Prompt Injections oder die Generierung schädlicher Inhalte.
Erweiterungsmöglichkeiten: Unternehmen und Forscher können das Framework um eigene Angriffsmethoden erweitern, um die Tests auf domänenspezifische Schwachstellen zuzuschneiden.
Zusammenarbeit in der Community: Eine wachsende Community sorgt für eine kontinuierliche Weiterentwicklung von Angriffstechniken und Abwehrmechanismen.
Das vollständige und erweiterbare Framework ist auf der GitHub-Seite der CyberArk Labs als Open Source verfügbar.
(ds/CyberArk)