In vielen Haushalten hat der Einsatz von Sprachassistenten wie „Alexa“ von Amazon – neben Apples Siri der wohl bekannteste Vertreter der Keyword-Spotting Lösungen (kurz KWS) – den Alltag revolutioniert.
Nach einem sogenannten Wake-Word („Alexa!“, Hey Siri“), welches die Applikation aktiviert, übermittelt diese den Wunsch des Bedienenden an einen entfernten Server, der den Sprachbefehl analysiert und anschließend das Auswertungsergebnis an das Gerät zurücksendet. Auf diesem Weg werden Musikwünsche erfüllt, ein Film auf die Playlist gesetzt oder das Weihnachtsgeschenk für die Liebste bestellt. Ähnlichkeiten in der Technologie finden sich auch in der Industrie und Medizintechnik, wo KWS an Bedeutung zunimmt. Durch die Erfassung und Nutzung von Sprache können schon heute Prozesse beschleunigt sowie effizienter gestaltet und sogar Leben gerettet werden.
„Die Vorteile sind unübersehbar,“ geht Viacheslav Gromov, Geschäftsführer vom KI-Anbieter AITAD, ins Detail. „Wenn der Mitarbeitende die Maschine in der Produktion mit seiner Stimme steuert, dann bedeutet das mehr Flexibilität. Er kann die Geräte aus der Ferne bedienen und muss keine Knöpfe mehr drücken oder auf dem Bildschirm der Maschine seine Eingabe eintippen. Es bedeutet auch die Vermeidung von Keimen und Bakterien, ein wichtiger Aspekt in der Medizin. Auch ein gerufener Befehl „Stop“ ist schneller als zur Maschine zu laufen und diese anzuhalten.“
Spracherkennung in Industrie und Medizintechnik
Die Übertragung von Sprachsignalen an entfernte Server birgt Latenzzeiten, die in sicherheitsrelevanten Umgebungen nicht akzeptabel sind. Ebenso spielen das Manipulations- und Ausfallrisiko einer Netzwerkverbindung eine Rolle. Der Einsatz in sicherheitskritischen Umgebungen in Industrie und Medizin erfordert Lösungen, die lokal und in Echtzeit arbeiten. Hier kommen innovative Sprachsteuerungsmodelle ins Spiel, die mit Embedded-KI umgesetzt werden. Hierbei werden nicht nur einzelne Wakewords erkannt, sondern bis zu 30 vordefinierte Begriffe, was komplexe Befehle ermöglicht. Ein Schlüsselwort aktiviert das System. Anschließend können komplexe Kombinationen dieser vordefinierten Wortgruppe gesprochen und von der KI ausgewertet werden, die zusammen mit den Mikrofonen auf dem gleichen kleinen Board sitzt („Embedded-KI-Systemkomponente“).
Beispiele für solche Sprachbefehle (hier im Beispiel mit „Roboter“ als Wakeword):
„Roboter, starte Programm A auf Maschine 3“
„Roboter, Förderband 6 anhalten“
„Roboter, Motor 4 in Maschine 3, erhöhe die Drehzahl um 40%“
„Roboter, Rollstuhl, jetzt links abbiegen“
„Roboter, Not aus“
„Entscheidend ist hier ein maximales Sicherheitslevel, das durch die lokale Verarbeitung der Sprachdaten – ohne Cloud oder Server – gewährleistet wird. Sowie die Effizienz, da die Befehle in Echtzeit direkt im Chip ausgewertet werden und die Maschine dadurch schneller reagiert,“ erklärt Gromov weiter.
Frei konfigurierbar, echtzeitfähig und robust
Unternehmen können ihre Sprachsteuerung individuell konfigurieren, angefangen von den Wakewords bis hin zur Wortgruppe. Dies ermöglicht maßgeschneiderte Systeme, die auch in mehreren Sprachen verfügbar sind. Bei Bedarf können synthetisch erzeugte Sicherheitsabfragen integriert werden. Die Einsatzmöglichkeiten sind vielfältig, von der Steuerung von Maschinen bis hin zur Notauslösung per Sprachbefehl. Die Einsatzmöglichkeiten sind vielfältig, von der Steuerung von Maschinen bis hin zur Notauslösung per Sprachbefehl.
Die Einsatzmöglichkeiten für Sprachsteuerungen sind nahezu unbegrenzt:
- Im Operationssaal kann der Chirurg das Hochfrequenzskalpell per Sprachbefehl starten, justieren und wieder abschalten.
- Berührungsloses Steuern von Maschinen und Geräten in Produktion und Krankenhäusern.
- Notaus per Sprachbefehl erspart im Ernstfall den Spurt zum Not-Aus-Schalter.
- Menschen mit Assistenzbedarf können beispielsweise den Rollstuhl per Sprache steuern.
Anpassungsfähig in rauen Umgebungen
Innovative autarke Embedded-KI-Sprachsteuerungslösungen arbeiten nicht nur vollständig lokal und in Echtzeit, sondern bewähren sich auch in rauen Umgebungen. Die KI wird nicht nur mit den zu erkennenden Worten, sondern auch mit Störgeräuschen trainiert, um eine zuverlässige Spracherkennung sicherzustellen, selbst wenn es in der Umgebung laut ist. Die Integration eines zusätzlichen Mikrofons ermöglicht es, den Standort des Sprechers zu erkennen und störende Geräusche zu eliminieren (Beamforming).
„Diese neue wegweisende Sprachsteuerung wird die Zukunft in Industrie und Medizin nachhaltig verändern und bestimmen,“ ist sich Gromov sicher. „Anfragen aus Industrie und Medizin nehmen vermehrt zu. Wir haben selbst eine Lösung entwickelt, die Unternehmen in die Lage versetzt, schon heute ihre Produkte mit dieser Technologie auszustatten und damit eine Vorreiterrolle in Wirtschaft und Business einzunehmen. Diese zeichnet sich durch eine hohe Robustheit auch gegen Störgeräusche aus und wird individuell auf die Kundenanforderungen zugeschnitten. Da wir auf eine Vorentwicklung zurückgreifen, können wir unsere lokale Sprachsteuerung mit zirka 30 zu erkennenden Worten kostengünstig anbieten.“
Viacheslav Gromov, Gründer und Geschäftsführer von AITAD