Google DeepMind hat am Montag die nächste Generation seines KI-gestützten Videomodells präsentiert. Veo 2, der Nachfolger des bisherigen Veo-Systems, soll Videos mit einer Länge von über zwei Minuten und in 4K-Auflösung (4096 x 2160 Pixel) erzeugen können – und damit die Fähigkeiten von OpenAIs Sora deutlich übertreffen.
In der Praxis sind diese Vorteile zunächst nur theoretischer Natur: In Googles experimentellem Videotool VideoFX, wo Veo 2 derzeit exklusiv zum Einsatz kommt, sind die Videos auf 720p und acht Sekunden beschränkt. Zum Vergleich: OpenAIs Sora kann Videos in 1080p mit einer Länge von bis zu 20 Sekunden generieren.
Der Zugang zu VideoFX erfolgt über eine Warteliste, wobei Google diese Woche eine Ausweitung der Nutzerzahlen angekündigt hat. Eli Collins, VP of Product bei DeepMind, kündigte gegenüber TechCrunch an, dass Veo 2 auch über die Vertex AI-Entwicklerplattform verfügbar gemacht werden soll, „sobald das Modell für den Einsatz im großen Maßstab bereit ist“.
Verbesserte Kontrolle und Physik
Wie sein Vorgänger kann Veo 2 Videos sowohl aus Textbeschreibungen als auch aus der Kombination von Text und Referenzbildern generieren. Die neue Version verfügt laut DeepMind über ein verbessertes „Verständnis“ von Physik und Kameraführung. Besonders bei Szenen mit viel Bewegung sollen Texturen und Bilder deutlich schärfer sein.
Das Modell ermöglicht eine präzisere Positionierung der virtuellen „Kamera“ und kann Objekte und Personen aus verschiedenen Blickwinkeln aufnehmen. DeepMind hebt auch die realistischere Darstellung von Bewegungen, Flüssigkeitsdynamik und Lichteffekten hervor.
Trotz der beeindruckenden Fortschritte gibt es noch Verbesserungspotenzial. Collins räumte ein, dass besonders bei der Kohärenz und Konsistenz noch Entwicklungsbedarf besteht. „Veo kann einem Prompt zwar für einige Minuten folgen, hat aber Schwierigkeiten bei komplexeren Anweisungen über längere Zeiträume. Auch die Konsistenz von Charakteren bleibt eine Herausforderung.“
Sicherheit und Training
Das Training von Veo 2 erfolgte mit einer großen Menge an Videomaterial. Während DeepMind keine genauen Angaben zur Herkunft der Trainingsdaten macht, gilt YouTube als wahrscheinliche Quelle. Zur Eindämmung von Deepfakes setzt DeepMind auf die hauseigene Wasserzeichentechnologie SynthID, die unsichtbare Marker in die generierten Frames einbettet.
Imagen-Updates
Parallel zur Einführung von Veo 2 kündigte Google DeepMind auch Verbesserungen für das Bildgenerierungsmodell Imagen 3 an. Die neue Version wird ab sofort in ImageFX ausgerollt und verspricht hellere, besser komponierte Bilder in verschiedenen Stilrichtungen wie Fotorealismus, Impressionismus und Anime.