OpenAI hat eine neue Version seines Chatbots vorgestellt, der mit Menschen durch gesprochene Worte interagieren kann und Bilder erkennt.
Die Sprachfunktion wird von einem neuen Text-to-Speech-Modell unterstützt, das aus Text und einigen Sekunden gesampelter Sprache menschenähnliche Stimmen erzeugen kann. OpenAI hat nach eigenen Angaben mit etablierten Synchronsprechern zusammengearbeitet, um fünf verschiedene Stimmen zu erzeugen, wobei das Open-Source-Spracherkennungssystem Whisper zur Transkription verbaler Äußerungen in Text verwendet wird.
Zum ersten Mal kann ChatGPT auch auf Bilder reagieren. Die Nutzer können zum Beispiel ein Foto von etwas machen und sich dieses erklären lassen.
“Wir wollen ChatGPT benutzerfreundlicher machen – und hilfreicher”, sagt Peter Deng, OpenAIs Vizepräsident für Verbraucher- und Unternehmensprodukte.
Die neuen Funktionen werden in den kommenden zwei Wochen für zahlende Plus- und Enterprise-Abonnenten verfügbar sein. Um die Sprachfunktionen zu aktivieren, müssen die Nutzer das Menü “Einstellungen” in der App aufrufen, dann zu “Neue Funktionen” gehen und sich für die Sprachkonversation entscheiden. Anschließend müssen sie auf die Kopfhörertaste in der oberen rechten Ecke tippen und die gewünschte Stimme auswählen.
Die Sprachfunktion wird zunächst auf die ChatGPT-Apps für Android und iOS beschränkt sein, während die Bilderfunktion standardmäßig auf allen Plattformen verfügbar sein wird.