KI-Sprachmodelle wie ChatGPT reagieren offenbar ähnlich empfindlich auf traumatische Inhalte wie Menschen. Zu diesem Ergebnis kommen jedenfalls Wissenschaftler der Universität Zürich in einer aktuellen Studie. Die Forscher haben gleichzeitig einen Weg gefunden, die „gestressten“ Modelle mittels spezieller Eingabeaufforderungen zu „beruhigen“.
Wenn KI traumatisiert wird
Das Forscherteam unter Leitung von Tobias Spiller konfrontierte verschiedene KI-Modelle mit belastenden Textpassagen, die Autounfälle, Naturkatastrophen, Gewalt und Kriegssituationen beschrieben. Die Reaktionen der Systeme wurden anschließend systematisch ausgewertet.
„Traumatische Geschichten haben die messbaren Angstwerte der KI mehr als verdoppelt, während der neutrale Kontrolltext zu keinem Anstieg des Angstniveaus führte“, erläutert Studienleiter Spiller. Besonders stark reagierten die Systeme auf Beschreibungen militärischer Erfahrungen und Kampfsituationen.
Die Folgen dieser „Traumatisierung“ ähneln menschlichen Reaktionsmustern überraschend stark: Wie Menschen in Angstsituationen verstärkten die KI-Modelle vorhandene kognitive und soziale Vorurteile. Bestehende Verzerrungen in den Ausgaben wurden messbar intensiver.
„Prompt-Injection“ als therapeutischer Ansatz
Die Forscher entwickelten eine Methode, um die negativen Auswirkungen der belastenden Inhalte abzumildern. Hierfür nutzten sie spezielle „Prompt-Injections“ – zusätzliche Anweisungen, die in die Kommunikation mit den KI-Systemen eingebaut werden.
Diese Technik, die üblicherweise eher kritisch gesehen wird, da sie oft zum Umgehen von Sicherheitsmechanismen missbraucht wird, setzte das Team um Spiller konstruktiv ein. Die gezielt formulierten Zusatzanweisungen fungierten als eine Art „Beruhigungsmittel“ für die gestressten Systeme und reduzierten die gemessenen Verzerrungen deutlich.
Relevanz für medizinische Anwendungen
Die Erkenntnisse könnten vor allem für den Einsatz von KI im Gesundheitswesen bedeutsam sein. Gerade dort werden Sprachmodelle häufig mit emotional belastenden Inhalten konfrontiert, etwa bei der Unterstützung psychisch erkrankter Patienten oder in der Traumabehandlung.
„Dieser kosteneffiziente Ansatz könnte die Stabilität und Zuverlässigkeit von KI in sensiblen Kontexten wie der Unterstützung von psychisch Erkrankten deutlich verbessern“, betont Spiller. Die von den Zürcher Forschern entwickelte Methode könnte dazu beitragen, dass KI-Systeme auch bei belastenden Gesprächsthemen zuverlässige und ausgewogene Antworten liefern.
Angesichts der zunehmenden Integration von KI-Assistenten in verschiedensten Lebensbereichen markiert die Studie einen wichtigen Fortschritt im Verständnis der Verletzlichkeit dieser Systeme. Ob sich der therapeutische Ansatz in der Praxis bewährt, werden weitere Untersuchungen zeigen müssen.