OpenAI hat am Donnerstag einen neuen KI-Agenten namens „Operator“ vorgestellt, der Webbrowser autonom steuern und bestimmte Aufgaben selbstständig ausführen kann. Die Funktion wird zunächst US-Nutzern des 200-Dollar-ChatGPT-Pro-Abonnements zur Verfügung gestellt.
Der auf operator.chatgpt.com verfügbare „Research Preview“ basiert auf einem speziellen „Computer-Using Agent“-Modell (CUA), das die Bilderkennungsfähigkeiten von GPT-4o mit erweiterten Reasoning-Funktionen kombiniert. Das System kann Webseiten wie ein Mensch bedienen – inklusive Formularausfüllung und Menünavigation.
Zu den unterstützten Anwendungsfällen gehören Reisebuchungen, Restaurantreservierungen und Online-Shopping. OpenAI kooperiert dabei mit Unternehmen wie DoorDash, eBay und Uber, um die Einhaltung der jeweiligen Nutzungsbedingungen sicherzustellen.
Sicherheitsmechanismen
Aus Sicherheitsgründen erfordert Operator bei sensiblen Aufgaben wie Banktransaktionen eine aktive Nutzeraufsicht. Kreditkarteninformationen müssen manuell eingegeben werden. Das System sammele keine Screenshots oder persönlichen Daten.
Weitere Einschränkungen betreffen die gleichzeitige Ausführung von Aufgaben sowie tägliche Nutzungslimits. Bei komplexen Interfaces oder CAPTCHA-Abfragen fordert der Agent den Nutzer zur Übernahme auf.
OpenAI implementiert verschiedene Sicherheitsmechanismen gegen Missbrauch: „Operator verfügt über Tools zur Einschränkung der Anfälligkeit für bösartige Prompts, versteckte Anweisungen und Phishing-Versuche“, heißt es in der Dokumentation.
Für europäische Nutzer wird der Dienst erst später verfügbar sein, wie CEO Sam Altman während eines Livestreams erklärte: „„Operator wird bald auch in anderen Ländern verfügbar sein“, sagte er. „In Europa wird es leider noch eine Weile dauern.“ Perspektivisch soll Operator in alle ChatGPT-Clients integriert werden.