Generative KI auf Basis von Large Language Models (LLMs) durchdringt derzeit immer mehr Anwendungsbereiche und schafft zunehmend neue Möglichkeiten. Viele haben ChatGPT oder die Bing Chat AI bereits ausprobiert und nutzen die KI-Systeme bereits als Unterstützung im Alltag oder Beruf.
Doch was wäre, wenn solche “intelligenten” Assistenzsysteme weitaus komplexere Aufgaben übernehmen, uns gar das Denken teilweise abnehmen würden? Autonome Agenten sind bereits auf dem Vormarsch.
Bisher bieten KI-Systeme wie ChatGPT Nutzern die Möglichkeit, Frage- und Problemstellungen auf Eingabe zu beantworten oder zu lösen, sofern es sich um text-, oder im Falle von GPT-4, um bild-basierte Inhalte handelt. Die Lösung von komplexen Problemstellungen oder Prozessen, die aus mehreren Teilschritten bestehen oder über die (alleinige) Ausgabe von Text- oder Bildinhalten hinaus gingen (z. B. die Interaktion mit einer Drittanwendung), waren damit bislang nicht möglich.
Seit dem 23. März hat OpenAI offiziell die Einführung und Integration von Plugins in ChatGPT eingeführt. Ähnlich wie Plugins in Browsern, bieten diese für ChatGPT die Möglichkeit, den Funktionsumfang zu erweitern und Drittanwendungen zu integrieren. Konnte ChatGPT bislang nur auf Wissen und Aufgabenstellungen zugreifen, die während des Trainings im Modell persistiert oder in Form von Embeddings über den Prompt mitgegeben wurden, besteht durch die Nutzung von Plugins nun die Möglichkeit, ChatGPT mit externen Anwendungen interagieren zu lassen. So könnte ChatGPT z. B. Themen googlen, mit Datenbanken interagieren oder externe Anwendungen über eine API ansteuern. OpenAI selbst beschreibt Plugins als die “Augen” und “Ohren”, mit denen diese auf Daten und Informationen außerhalb der Trainingsdaten zugreifen kann.
Diese Entwicklung führt zu neuen und disruptiven Anwendungsmöglichkeiten von Large Language Models (LLMs): der Entwicklung von (autonomen) KI-Agenten zur Lösung und Bearbeitung von komplexen Aufgaben oder Problemstellungen.
KI-Agenten: autonome oder teilautonome Systeme
KI-Agenten (häufig auch als “intelligente Agenten” bezeichnet) kann man sich als Systeme vorstellen, die unterschiedliche Aufgaben- oder Problemstellungen (eigenständig / autonom) lösen können. Je nach Ausprägung verfügen diese über bestimmte Fähigkeiten wie Wahrnehmung (z. B. durch Sensoren), Entscheidungsfindung, Kommunikation und Handeln. Durch diese Fähigkeiten sind sie in der Lage unterschiedliche Problem- und Aufgabenstellungen zu bearbeiten oder Lösungswege abzuleiten. Dazu interagieren die Systeme mit ihrer Umgebung und nutzen Werkzeuge (z. B. in Form von Plugins). Der Grad der Autonomie wird dabei durch den Handlungsspielraum definiert.
Dabei lassen sich Agenten grob in autonom und teilautonom handelnde Systeme einteilen:
- Autonom handelnde KI-Agenten sind Systeme, die in der Lage sind, ihre Umgebung wahrzunehmen, Entscheidungen zu treffen und Aktionen durchzuführen, um ein bestimmtes Ziel zu erreichen, ohne auf menschliche Intervention angewiesen zu sein. Sie können sich an sich ändernde Umstände und Bedingungen anpassen, ohne menschliche Kontrolle zu benötigen.
- Im Gegensatz dazu benötigen teilautonome KI-Agenten eine gewisse Art der menschlichen Kontrolle oder Überwachung und sind häufig in ihrem Handlungsfeld deutlich eingeschränkt. Obwohl sie in bestimmten Bereichen autonom handeln können, müssen sie in anderen Bereichen von Menschen unterstützt werden. So können sie beispielsweise bestimmte Entscheidungen autonom treffen, benötigen aber eine Bestätigung durch einen Menschen oder sie sind im Aufgaben- und Entscheidungsspielraum stark limitiert.
Potenziale (autonomer) KI-Agenten auf Basis von LLMs
Unabhängig, ob teil- oder vollständig autonom, lassen sich KI-Agenten grundsätzlich überall dort einsetzen, wo Aufgaben oder Prozesse aus mehreren Teilschritten bestehen und die Nutzung mehrerer Systeme bedingen. So können z.B. Routine-Aufgaben oder Prozesse in der Verwaltung oder IT automatisiert werden. Wo aktuell zur Abfrage einer Datenbank z. B. ein Mensch mit entsprechender Expertise in der jeweiligen Abfragesprache die Aktion durchführen müsste, könnte ein KI-Agent mit Zugriff auf und Wissen über die Datenbank diese Aufgabe automatisiert und auf Zuruf übernehmen.
Beispiel: Problemstellung mit vier Teilschritten
Die Geschäftsführung eines Unternehmens möchte wissen, wie sich der Verkauf eines Produktes seit dem Start der letzten Marketingkampagne für eine bestimmte Zielgruppe entwickelt hat und wendet sich mit Ihrer Anfrage an das Controlling. Die typischen Schritte eines Analysten oder Controllers könnten dabei wie folgt aussehen:
- Identifizierung von relevanten Daten: Welche Daten werden benötigt und über welche Systeme können diese abgerufen werden?
- Datenbeschaffung und Vorbereitung: Abruf und Aggregation der benötigten Daten (im Fall von verteilten Systemen) aus den Datenbanken
- Analyse: Die eigentliche Analyse der Daten und das Extrahieren der Informationen
- Reporting: Erstellung eines Berichts zur Darstellung der Ergebnisse im firmeneigenen Reporting-Tool
In dem Beispiel besteht die Problemstellung aus vier Teilschritten und beinhaltet die Interaktion mit mindestens einer Datenbank, einem Reporting-Tool und ggf. einem zusätzlichen Auswertungs-Tool. Ein KI-Agent mit Zugriff und Wissen über die Steuerung der Datenbank und das Reporting- und Auswertungs-Tool (z. B. über Plugins), könnte diese Aufgabe (teil-)autonom übernehmen und durchführen.
Nun stellt sich die Frage, wozu dafür extra ein KI-Agent gebraucht wird, wenn solche Prozesse auch mit einschlägigen Automatisierungswerkzeugen umgesetzt werden können. Die Antwort ist einfach: Während man bei diesen jeden Workflow von einem Experten (oder mehreren, bei unterschiedlichen Systemen) händisch bauen müsste (und sich der Aufwand damit häufig nur bei wiederkehrender Verwendung lohnen würde), könnten KI-Agenten die Aufgabe allein aus der Aufgabenbeschreibung ableiten und lösen.
Dazu werden die Sprachverarbeitungs- und Verständnisfähigkeiten von LLMs genutzt, die mit dem Wissen über die Benutzung der Systeme und Schnittstellen (z. B. über Plugins / Prompt-Engineering), zuerst den Prozess, die Teilschritte und benötigten Werkzeuge planen und dann anschließend durchführen.
Die Geschäftsführung oder das Controlling könnten damit ihre Anfrage in natürlicher Sprache direkt an den KI-Agenten stellen: “Ich möchte wissen, wie sich der Verkauf eines Produktes seit dem Start der letzten Marketingkampagne für eine bestimmte Zielgruppe entwickelt hat.“ Der KI-Agent könnte dann automatisch (oder unter Aufsicht) in wenigen Minuten die gewünschten Ergebnisse liefern.
Fazit
Mit der Veröffentlichung von ChatGPT durch OpenAI im Dezember 2022 haben generative KI-Systeme auf Basis von LLMs ihren Durchbruch im Mainstream erlebt. Autonome KI-Agenten sind dabei die neueste Entwicklung und bieten branchenübergreifend ein großes und disruptives Potenzial. Experimentelle Anwendungen wie AutoGPT oder BabyAGI zeigen bereits verblüffende Ergebnisse und geben eine Idee über die Möglichkeiten von KI-Agenten – auch wenn insbesondere der Einsatz von komplett autonom agierenden Agenten aktuell noch mit Limitierungen und Risiken verbunden ist. Zukünftig ist jedoch damit zu rechnen, dass insbesondere Teil-autonome KI-Agenten mit Zugriff auf Plugins und individuelle Wissensdatenbanken ihren Platz als digitale Assistenz finden werden – vor allem in Branchen mit vielen standardisierten oder repetitiven Aufgaben wie z. B. in der IT oder Verwaltung.