Large Language Models (LLMs)

MIT will toxische Aussagen von KI-Sprachmodellen verhindern

3. Mai, 2024
08:10

Facebook X LinkedIn Reddit WhatsApp Pocket

Forscher des Massachusetts Institute of Technology (MIT) haben eine Künstliche Intelligenz (KI) darauf trainiert, sich möglichst viele toxische Fragen auszudenken, damit sogenannte Großen Sprachmodelle (LLMs) wie ChatGPT, Claude 3 Opus und Co in jedem Fall von Gefahr verbreitenden Antworten abgehalten werden.

Sprachmodelle matchen sich

Die KI generiert tatsächlich umfangreichere und vielfältigere negative Aufforderungen, als dies von menschlichen Red-Teams, die sich manuell potenziell schädliche Fragen ausdenken und entsprechend negative Antworten herausfordern, jemals möglich wäre. Darüber hinaus haben die Forscher bestärkendes Lernen eingesetzt, um ein Sprachmodell zu motivieren, verschiedene Prompts zu erstellen, um toxische Reaktionen eines anderen Modells zu provozieren.

Prompts sind kurze Hinweise, zum Beispiel in Form von allgemeinen Fragen oder genauen Ausführungsanleitungen. Durch Belohnungen für die Generierung neuartiger Fragen und Aufforderungen, die schädliche Reaktionen hervorrufen, lernte das System, neue Wörter, Satzstrukturen und Bedeutungen zu erforschen, was zu einer breiteren Palette von toxischen Aufforderungen führte.

Überprüfung vor der Freigabe

„Es gibt bereits eine Flut von Modellen und es ist zu erwarten, dass diese Zahl noch steigen wird. Diese Modelle werden ein integraler Bestandteil unseres Lebens sein, und sie müssen überprüft werden, bevor sie für die Öffentlichkeit freigegeben werden“, fordert Pulkit Agrawal, Direktor des Improbable AI Lab am MIT. Sie sollen toxische Sprache wie abwertende oder obszöne Ausdrücke erkennen und verhindern, dass sie den Nutzern angezeigt werden.

„Das ist ein wichtiger Schritt, um sicherzustellen, dass LLMs nicht die denkbar schlechtesten Inhalte produzieren“, ergänzt Knar Hovakimyan, KI-Experte bei Grammarly. Das US-Software-Unternehmen bietet einen KI-basierten Schreibassistenten an, der Texte in englischer Sprache überprüft und verbessert.

(vp/pressetext.redaktion)

Künstliche Intelligenz Large Language Models (LLMs)

MIT will toxische Aussagen von KI-Sprachmodellen verhindern

Sprachmodelle matchen sich

Überprüfung vor der Freigabe

Weitere Artikel

Events

Jobs

Meistgelesene Artikel

Trade Republic erneut down: Tausende Störungsmeldungen

Trade Republic down: Investment-App kämpft mit Störungen

X down – schon wieder! Tausende Nutzer melden Störungen

Wegen US-Zöllen: Baerbock fordert 10 Cent pro iPhone-Update

6 Millionen Datensätze: Oracle wurde angeblich gehackt

IT Verlag

Wichtige Links

Kontakt