OpenAI hat am Donnerstag ein neues KI-Produkt namens Sora angekündigt. Das Tool soll Textprompts in Videos von bis zu einer Minute Länge umwandeln.
OpenAI betont allerdings, dass Sora sich noch in der Forschungsphase befindet und noch nicht in die Produktpalette des Unternehmens integriert wird. Andere Unternehmen, von Giganten wie Google bis hin zu Start-ups wie Runway, haben bereits Text-to-Video-KI-Tools vorgestellt. OpenAI behauptet aber, dass Sora sich durch seinen beeindruckenden Fotorealismus auszeichnet und durch seine Fähigkeit, längere Clips zu produzieren als die kurzen Schnipsel, die andere Modelle üblicherweise produzieren.
Bei der vorgestellten Sora-Demo sind Videos zu sehen, die aussehen, als wären sie quasi aus einem Hollywood-Film entnommen worden. Bei dem Showcase wurden kurze, in Minutenschnelle erstellte Clips von Mammuts gezeigt, oder, wie unten zu sehen, eine Straßenszene in Tokio.
Um Sora zu bauen, hat das Team die Technologie hinter DALL-E 3 angepasst. Wie die meisten Text-zu-Bild-Modelle verwendet DALL-E 3 ein sogenanntes Diffusionmodell. Diese werden darauf trainiert, aus einem Wirrwarr von zufälligen Pixeln ein Bild zu machen. Und so ist Sora nun in der Lage, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungstypen und genauen Details zu Objekten und Hintergründen zu generieren. Eine besondere Eigenschaft ist ihre Fähigkeit, die Nuancen eines Prompts zu verstehen und zu berücksichtigen, wie verschiedene Objekte in der physischen Welt interagieren. Darüber hinaus generiert die Video-KI ein gesamtes Video auf einmal, anstatt es Bild für Bild zu erstellen.