Meta hat VoiceBox vorgestellt, ein neues KI-Modell, das generative KI nutzt, um Sprache auf verschiedene Weise zu erzeugen und zu bearbeiten. Es lernt aus dem Kontext und führt Aufgaben aus, für die es nicht trainiert wurde.
Voicebox könne qualitativ hochwertige Audioclips erstellen und unerwünschte Geräusche aus bestehendem Audiomaterial entfernen oder den Stil eines beliebigen Audiobeispiels anpassen und Sprache in sechs Sprachen produzieren.
Die Vielseitigkeit von Voicebox ermögliche verschiedene Aufgaben, wie z. B. In-Context-Text-to-Speech-Synthese, Sprachbearbeitung und Rauschunterdrückung, sprachübergreifende Stilübertragung und diverse Sprachsamples: Künftig könnten generative Mehrzweck-KI-Modelle wie Voicebox virtuellen Assistenten natürlich klingende Stimmen verleihen. Sie könnten auch sehbehinderten Menschen ermöglichen, schriftliche Nachrichten von Freunden von der KI in ihrer Stimme vorgelesen zu bekommen, und Kreativen neue Werkzeuge an die Hand geben, um auf einfache Weise Audiospuren für Videos zu erstellen und zu bearbeiten, heißt es.
Meta sagt, das neue KI-Modell sei allerdings aktuell zu gefährlich, um es zu veröffentlichen: „Es gibt viele interessante Anwendungsfälle für generative Sprachmodelle, aber wegen der potenziellen Risiken des Missbrauchs machen wir das Voicebox-Modell oder den Code derzeit nicht öffentlich zugänglich.“