Streaming-Speech-to-Speech-Funktionen

Twilio entwickelt KI-Konversations-Anwendungen mit der Echtzeit-API von OpenAI

OpenAI
Bildquelle: Emre Akkoyun / Shutterstock.com

Twilio arbeitet mit OpenAI zusammen, um deren neue Echtzeit-API auf die Twilio-Plattform zu bringen. Die Einführung der Streaming-Speech-to-Speech-Funktionen (S2S) ermöglicht es über 300.000 Unternehmenskunden von Twilio und mehr als 10 Millionen Entwicklern, virtuelle Konversations-KI-Agenten zu erstellen.

Diese nutzen das Modell GPT-4o von OpenAI und bieten dabei mehrsprachige und multimodale Fähigkeiten.

Anzeige

Die neue Integration baut auf den im vergangenen Jahr angekündigten bestehenden Produktintegrationen von OpenAI und Twilio auf, um die Leistungsfähigkeit von LLMs auf die Kundenbindungs-Plattform zu bringen.

„Die Integration der Echtzeit-API von OpenAI in die Plattform von Twilio ermöglicht es Unternehmen, natürlichere KI-Sprachinteraktionen in Echtzeit in großem Maßstab anzubieten“, sagt Inbal Shani, Chief Product Officer bei Twilio Communications. „Unternehmen können dies nutzen, um Spracherlebnisse zu schaffen, die sich menschlicher anfühlen, die Betriebskosten senken und die Kundenzufriedenheit steigern können.“

Speech-to-Speech ist eine neue Technologie, die Sprachkonversationen von virtuellen KI-Agenten mehr wie echte menschliche Dialoge erscheinen lässt. Die Echtzeit-API von OpenAI verringert die Latenzzeit und berücksichtigt Schlüsselkomponenten wie Gesprächs-Geschwindigkeit, Umgang mit Unterbrechungen, Tonfall und Gleichgewicht zwischen Sprechen und Zuhören – alles wichtige Elemente der Benutzererfahrung, die für das richtige Kundenerlebnis entscheidend sind.

„Die Speech-to-Speech-Funktionen der Echtzeit API sind darauf ausgelegt, die starke Kundennachfrage nach Konversations-KI-Lösungen zu befriedigen“, sagt Olivier Godement, Head of Product, API bei OpenAI.

Die Technologie ist besonders für den Kundenservice und den Vertrieb relevant, da sie sowohl betriebliche Effizienz als auch außergewöhnliche Kundenergebnisse liefert. Speech-to-Speech soll auch soziale Auswirkungen im großen Maßstab unterstützen. Gemeinnützige und öffentliche Organisationen können damit neuartige Anwendungsfälle, wie Sprachübersetzung in Echtzeit zwischen Wählern und Mitarbeitern, die verschiedene Sprachen sprechen, einsetzen.

Unternehmen können diese Funktionen mit der Kundenbindungs-Plattform von Twilio verbinden und so virtuelle Konversations-KI-Agenten in Arbeitsabläufe integrieren, wie sie es bei jeder anderen Sprachinteraktion tun würden. Bisher mussten Entwickler mehrere Anbieter und Lösungen zusammenführen, um diese Agenten zu erstellen und bereitzustellen.

Twilios native Integration der OpenAI-Echtzeit-API mit Sprach-zu-Sprach-Funktionen ermöglicht es, virtuelle Agenten auf einer einzigen Plattform zu erstellen, bereitzustellen und für Kunden nutzbar zu machen. Mithilfe der skalierbaren Sprach-APIs und Software von Twilio können Entwickler fortschrittliche Funktionen nutzen, um Anrufe aufzuzeichnen, die Leistung und Analysen zu überwachen und mit KI-gestützten Operatoren Erkenntnisse zu gewinnen. Diese Anrufe mit virtuellen Agenten werden zu wertvollen Daten, die zur Steigerung der betrieblichen Effizienz und zur personalisierten Kundenbetreuung im großen Maßstab eingesetzt werden können.

Twilio setzt sich zudem dafür ein, Kunden vor neuen und aufkommenden Herausforderungen wie Deepfakes, stimmbasierten Manipulationen und anderen Bedrohungen zu schützen. Mit wachsendem Verständnis für diese Risiken und der Entwicklung von Lösungen wird Twilio auch verstärkt an der Integration dieser Funktionen in die Plattform arbeiten – einschließlich einer geplanten Integration der Twilio Alpha KI-Assistenten.

(pd/Twilio)

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.