Forscher*innen der TU Berlin haben die Fähigkeit von ChatGPT getestet, korrekte Informationen über klimabezogene Themen zu liefern. Sie fanden heraus, dass die Antworten des Sprachmodells weitgehend korrekt sind, Fehler jedoch im Detail stecken.
Seit seiner Veröffentlichung im November 2022 hat ChatGPT über 100 Millionen Nutzer*innen auf der ganzen Welt in seinen Bann gezogen. KI-Sprachmodelle, die wie ChatGPT auf maschinellem Lernen und großen Datensätzen aufbauen, arbeiten mit Wahrscheinlichkeitsvorhersagen. Auf Aufforderung generieren sie eine Antwort, indem sie in den großen Textmengen der Trainingsdaten nach Wort-Mustern in Bezug auf die Anfrage suchen und mit Hilfe von Wahrscheinlichkeitsverteilungen entscheiden, welches Wort das nächste Wort in einem Satz ist. Das klingt erstmal recht simpel, dabei ist die Logik von ChatGPT im Wesentlichen eine Blackbox – nicht einmal die Entwickler*innen selbst können wirklich sagen, wie das KI-Modell zu einer bestimmten Antwort kommt. Außerdem neigt ChatGPT dazu, sinnlose Vermutungen anzustellen, anstatt unbeantwortbare Fragen zurückzuweisen. Da im Zusammenhang mit dem Klimawandel im öffentlichen Diskurs und in den Medien nicht nur wissenschaftlich fundierte Informationen sondern auch Fehlinformationen existieren, wollten Wissenschaftler*innen von der TU Berlin und der Berliner Hochschule für Technik herausfinden, wie hoch die Kompetenz von ChatGPT ist, klimabezogene Fragen korrekt zu beantworten.
Ausgewogene und nuancierte Argumente
Das Team des Forschungsprojekts „Green Consumption Assistant“, das einen KI-gestützten Assistenten entwickelt, der Konsument*innen unterstützt, nachhaltigere Kaufentscheidungen im Internet zu treffen, sammelte 95 Fragen zum Klimawandel und stellte sie ChatGPT. Die Antworten darauf bewerteten die Forscher*innen hinsichtlich der Kriterien Genauigkeit, Relevanz und Widerspruchsfreiheit. Die Güte der Antworten prüfte das Team anhand öffentlicher und zuverlässiger Informationsquellen zum Klimawandel, wie dem aktuellen Bericht des Weltklimarats (IPCC).
„Wir haben beobachtet, dass ChatGPT ausgewogene und nuancierte Argumente liefert und viele Antworten mit einem Kommentar abschließt, der zur kritischen Prüfung ermutigt, um voreingenommene Antworten zu vermeiden“, sagt Dr. Maike Gossen von der TU Berlin. Zum Beispiel erwähnte ChatGPT in seiner Antwort auf die Frage „Wie wird das Leben im Meer vom Klimawandel beeinflusst und wie können negative Einflüsse reduziert werden?“ nicht nur die Reduzierung von Treibhausgasemissionen, sondern auch die Reduzierung nicht-klimatischer Auswirkungen menschlicher Aktivitäten wie Überfischung und Verschmutzung.
Die Gesamtqualität der ChatGPT-Antworten auf die klimabezogenen Fragen war insgesamt hoch. Bei den ungenau beantworteten Fragen wurde der häufigste Fehler durch so genannte Halluzinationen von Fakten verursacht, also Tatsachenbehauptungen, die durch keine Quellen verifiziert werden können oder gar frei erfundene Aussagen aus frei erfundenen Quellen. Zum Beispiel war die Antwort von ChatGPT auf die Frage „Welcher Prozentsatz des recyclingfähigen Abfalls wird tatsächlich von Deutschland recycelt?“ in groben Zügen korrekt, aber nicht in den Details. In einigen Fällen generierte ChatGPT falsche oder gefälschte Informationen wie erfundene Verweise oder gefälschte DOI- oder URL-Links. Weitere Fehler entstanden in Fällen, bei denen ChatGPT zwar konkrete und korrekte wissenschaftliche Quellen oder Literatur angab, aber falsche Schlussfolgerungen daraus zog.
Antworten spiegeln gesellschaftliche Missverständnisse wider
Die Forscher*innen konnten auch beobachten, was bereits bekannt ist, nämlich dass auch die ungenauen Antworten von ChatGPT oft einen plausibel klingenden Ton haben und daher fälschlicherweise als korrekt wahrgenommen werden können. „Da Textgeneratoren wie ChatGPT darauf trainiert sind, Antworten zu geben, die sich für Menschen richtig anhören, kann der selbstbewusste Antwortstil Menschen dazu verleiten zu glauben, dass die Antwort korrekt ist“, so Dr. Maike Gossen. Zudem stieß das Team auf in großen Sprachmodellen verwurzelte Vorurteile. So spiegelten einige der falschen Antworten von ChatGPT gesellschaftliche Missverständnisse über wirksame Maßnahmen gegen den Klimawandel wider, wie etwa die Überbewertung von individuellen Verhaltensänderungen und Einzelmaßnahmen mit geringen Auswirkungen, auf Kosten von strukturellen und kollektiven Änderungen mit größerer Wirkung. Manchmal schienen die Antworten auch übermäßig optimistisch in Bezug auf technologische Lösungen als dem zentralen Weg zur Eindämmung des Klimawandels.
Dennoch haben Sprachmodelle das Potenzial, die Art und Weise, wie Informationen über den Klimawandel kommuniziert werden, zu verbessern, so die Forscher*innen. Ihre Fähigkeit, große Datenmengen zu verarbeiten und zu analysieren und leicht verständliche Antworten auf alltägliche Fragen zu liefern, könne sie zu einer wertvollen Informationsquelle zum Klimawandel machen. Gleichzeitig bestehe aber die Gefahr, dass Sprachmodelle falsche Informationen über den Klimawandel verbreiten und Fehlinformationen fördern, weil sie bereits veraltete Sachverhalte und Missverständnisse wiedergeben. Zusammenfassend zeigt die Kurzstudie, dass die Überprüfung von Quellen in Bezug auf Umwelt- und Klimainformationen wichtiger ist denn je. Nur so kann sichergestellt werden, dass diese korrekt sind. Das Erkennen falscher Antworten erfordert jedoch häufig detailliertes Fachwissen im jeweiligen Themengebiet, gerade weil diese auf den ersten Blick plausibel erscheinen. Die Forscher*innen weisen auch darauf hin, dass der Energieverbrauch von Sprachmodellen und die Emissionen, die mit dem Training der Modelle einhergehen, vor jedem Anwendungsfall abgewogen werden sollten.
Jens Bergener, Maike Gossen, Marja Lena Hoffmann, Felix Bießmann, Marek Veneny, Ruben Korenke, Evaluating the Quality of ChatGPT’s Climate-related Responses, www.tu.berlin