27.10.2015
Siri & Co.
1. Teil: „Wie moderne Spracherkennung funktioniert“
Wie moderne Spracherkennung funktioniert
Autor: Boris Boden
Shutterstock/venimo
Spracherkennung gehört zu modernen Smartphones. Was früher im Gerät eingebaut wurde, funktioniert heute aber meist über externe Server-Lösungen.
Wenn jemand „OK Google“ oder „Hey Siri“ ruft, meint er meistens den Sprachassistenten seines Smartphones, den er durch diese Worte aktivieren will. Danach folgt meist eine Frage wie „Brauche ich heute einen Regenschirm?“, auf den das Smartphone prompt mit einem Wetterbericht antwortet. Das ist keine Magie, sondern das Ergebnis von Spracherkennung.
Bei den ersten Handy-Sprachsteuerungen, wie im Jahr 2000 im Philips Savvy, musste der Anwender noch einige bestimmte Befehle auswendig lernen und darüber hinaus sehr genau aussprechen, damit sie überhaupt verstanden wurden.
Bei manchen Modellen kam noch die Möglichkeit dazu, zum Anrufen einige wenige Namen aus dem internen Telefonbuch „anzulernen“, indem diese mehrmals hintereinander aufgesprochen und dann im Gerät gespeichert wurden.
Allerdings erkannte das System dann in der Regel auch nur diesen einen Sprecher, dessen Eingabe vom Chip im Handy intern mit dem gesprochenen Satz ganz genau übereinstimmen musste. All das erfolgte schließlich auf Handys, die wenig Speicher und Rechenkapazität für komplexe Vorgänge hatten.
2. Teil: „Siri lebt im Server
“
“
Siri lebt im Server
Mit der Einführung von Apples Spracherkennung „Siri“ im Jahr 2011 änderte sich dann das grundsätzliche Arbeitsprinzip von Spracherkennung, denn das „Speech Interpretation and Recognition Interface“ funktionierte serverbasiert, also „offboard“ und nicht „onboard“.
Technisch muss die Spracherkennung auf zwei Ebenen funktionieren: Einmal müssen die Worte des Anwenders im Gerät überhaupt erfasst werden, im zweiten Schritt erfolgt dann auf dem Server die logische Umsetzung der Daten.
Die Spracherkennung wurde früher zunächst durch einen Tastendruck aktiviert, heute sind viele Smartphones aber auch ständig auf Zuruf aktionsbereit, da ein Co-Prozessor permanent auf solche Signale wartet. Als Erstes erfolgt eine Vorverarbeitung der analogen Sprache in digitale Signale.
Einen erfassten Befehl muss das System dann aber im Zentralrechner im nächsten Schritt auch richtig interpretieren, zum Beispiel wenn es um Wörter geht, die gleich klingen, aber eine unterschiedliche Bedeutung haben: Bei den Wörtern „Meer“ oder „mehr“ ist das durch die meist im Satz verwendeten Präpositionen noch relativ einfach, doch in einigen Sprachen kann der gleiche Klang zum großen Problem werden.
Hier kommen zum Beispiel Formeln zum Einsatz, die etwa die statistisch größte Wahrscheinlichkeit eines Wortes berücksichtigen. Auch muss das System eventuelle grammatikalische Schwächen oder regionale Dialekte erkennen und tolerieren. Für das gesamte Vokabular entsteht bei den Anbietern so eine Datenbank, die immer weiter wächst und so leistungsfähiger wird.
Neue Geräte hören zu
Dass die Spracherkennung mit ihren Möglichkeiten noch eine große Zukunft hat, ist klar: Mit immer mehr Rechen- und Speicherkapazität wird sie leistungsfähiger. Schließlich werden immer mehr Geräte am besten per Sprache gesteuert. Bei Nuance sorgen vor allem smarte Fernseher und Uhren für eine rasante Zunahme der Anfragen an den Cloud-Server.
Letzte Hürde genommen
USB-C kommt als einheitlicher Ladestandard
Nach dem Bundestag hat auch der Bundesrat einer EU-Richtlinie zugestimmt, die USB-C als einheitlichen Anschluss zum Laden von Elektrogeräten festlegt.
>>
Autohersteller
Erstes Smartphone von Polestar
Autohersteller Polestar hat in China sein erstes Smartphone vorgestellt, das vor allem gut mit den Fahrzeugen des Herstellers zusammenarbeiten soll.
>>
Ohne Nokia
HMD zeigt erste Smartphones mit der eigenen Marke
Mit den drei neuen Pulse-Modellen bringt HMD seine ersten Smartphones auf den Markt, die nicht mehr unter der Lizenz von Nokia vermarktet werden.
>>
"Lass dich frei."
Apple mit Pencil- und iPad-Event im Mai
Unter dem Claim "Lass dich frei." oder "Let loose." hat Apple sein nächstes Event angekündigt. Konkret werden am 7. Mai um 16.00 Uhr neue Geräte vorgestellt.
>>