Amazon hat am Montag Nova Act, einen universellen KI-Agenten zur Browsersteuerung für einfache Aufgaben, angekündigt. Parallel dazu veröffentlicht der Konzern das Nova Act SDK für Entwickler.
Amazon treibt seine Bemühungen im Bereich der agentenbasierten künstlichen Intelligenz voran. Der neu vorgestellte Nova Act soll es ermöglichen, einen Webbrowser eigenständig zu steuern und simple Aufgaben auszuführen. Die Technologie stammt aus dem kürzlich eröffneten AGI-Labor des Unternehmens in San Francisco und wird auch zentrale Funktionen des kommenden Alexa+-Updates antreiben, einer generativen KI-Version des Sprachassistenten.
Die ab sofort verfügbare Version bezeichnet Amazon allerdings als „Research Preview“ – ein Hinweis darauf, dass die Technologie noch nicht vollständig ausgereift ist. Entwickler erhalten über eine neue Website (nova.amazon.com) Zugang zum Nova Act SDK, das gleichzeitig als Schaufenster für Amazons verschiedene Nova-Basismodelle dient.
Vision: Von einfachen Tasks zu komplexen Workflows
„Unsere Vision ist es, Agenten einzusetzen, die umfangreiche, komplexe, mehrstufige Aufgaben erledigen können – von der Organisation einer Hochzeit bis hin zur Bewältigung komplexer IT-Aufgaben zur Steigerung der Produktivität“, erklärt Amazon in seinem Blogbeitrag. Das Unternehmen räumt jedoch ein, dass mehrstufige Agenten mit hochgesteckten Zielen derzeit noch ständige menschliche Überwachung benötigen.
Um diese Einschränkung zu überwinden, ermöglicht das Nova Act SDK Entwicklern, komplexe Workflows in zuverlässige atomare Befehle zu zerlegen (z.B. Suchen, Bezahlen, Fragen zum Bildschirminhalt beantworten). Entwickler können diesen Befehlen detailliertere Anweisungen hinzufügen, APIs aufrufen und sogar direkte Browser-Manipulation durch Playwright einsetzen, um die Zuverlässigkeit weiter zu verbessern – beispielsweise beim Eingeben von Passwörtern.
Fokus auf Zuverlässigkeit statt bloßer Benchmarks
Amazon betont, dass Nova Act auf zuverlässige Bausteine ausgerichtet ist, die zu komplexeren Workflows zusammengesetzt werden können. Während viele Agent-Benchmarks die Modellleistung bei hochrangigen Aufgaben messen, wo modernste Modelle nur 30% bis 60% Genauigkeit beim Abschließen von Aufgaben in Webbrowsern erreichen, hat sich Amazon darauf konzentriert, bei internen Evaluierungen über 90% bei Funktionen zu erzielen, bei denen andere Modelle Schwierigkeiten haben – wie Datumsauswahl, Dropdown-Menüs und Popups.
„Die Konzentration von Nova Act auf Zuverlässigkeit bedeutet, dass Sie, sobald alles funktioniert, nicht jede Aktion überwachen müssen“, heißt es im Blog. Der Headless-Modus ermöglicht es, den Agenten in eine API zu verwandeln, die in andere Produkte integriert werden kann, oder ihn so einzurichten, dass er asynchron nach einem beliebigen Zeitplan läuft. Als Beispiel nennt Amazon einen Agenten, der im Hintergrund läuft und jeden Dienstag automatisch einen Salat zum Abendessen bestellt.
Amazon behauptet, dass Nova Act in internen Tests besser abschneidet als vergleichbare Agenten von OpenAI und Anthropic. Beim ScreenSpot Web Text-Test, der die Textinteraktion eines KI-Agenten misst, erreichte Nova Act 94%, während OpenAIs CUA 88% und Anthropics Claude 3.7 Sonnet 90% erzielten.
Erste Früchte des AGI-Labors
Nova Act ist das erste öffentliche Produkt von Amazons AGI-Labor, das von den ehemaligen OpenAI-Forschern David Luan und Pieter Abbeel geleitet wird. Beide gründeten zuvor eigene Startups – Luan gründete Adept, während Abbeel Mitbegründer von Covariant war – bevor Amazon sie im vergangenen Jahr anwarb, um die KI-Agenten-Bemühungen voranzutreiben.