Alexa ist immer aufmerksam, zeichnet aber nicht permanent auf. Erst wenn das Aktivierungswort (Alexa, Echo oder Computer) erkannt wird, werden Daten an Cloud-Server gesendet. Das Erkennen dieser Weckwörter ist jedoch anspruchsvoller, als man vielleicht annimmt.
Die Echo-Hardware ist nicht von sich aus intelligent. Ohne Internetverbindung scheitert jede Anfrage oder Frage. Denn die Befehle werden zur Interpretation und Ausführung an die Cloud weitergeleitet. Amazon möchte nicht jedes Gespräch aufzeichnen, sondern lediglich die Befehle, die an den Smart Speaker gerichtet sind. Deshalb wird ein Weckwort verwendet, um die Aufmerksamkeit des Geräts zu erlangen. Amazon nutzt hierfür eine Kombination aus präzise abgestimmten Mikrofonen, einem kurzzeitigen Pufferspeicher und neuronalem Netztraining.
Präzise Mikrofone orten die Stimme
Die hellblaue LED zeigt stets in die Richtung der sprechenden Person.
Sprachassistenten wie Echo und Echo Dot sind in der Regel mit mehreren Mikrofonen ausgestattet. Der Echo Dot zum Beispiel verfügt über sieben Mikrofone. Dieses Array ermöglicht es den Geräten, auch aus der Ferne Befehle zu empfangen und Umgebungsgeräusche von Stimmen zu trennen.
Letzteres ist besonders wichtig für die Erkennung des Weckworts. Mit den mehreren Mikrofonen kann das Echo die Position des Sprechers relativ zu seiner eigenen Position bestimmen und in diese Richtung hören, während andere Geräusche im Raum ausgeblendet werden.
Dies wird deutlich, wenn man das Weckwort verwendet. Wenn man seitlich eines Echos oder Echo Dots steht und das Weckwort spricht, leuchtet der Ring dunkelblau auf und wird dann heller, während er sich dreht und auf den Sprecher ausrichtet. Wenn man nun einige Schritte zur Seite geht und das Weckwort erneut ausspricht, folgen die hellblauen Lichter dem Sprecher.
Die Positionsbestimmung hilft dem Gerät, sich besser auf den Sprecher zu konzentrieren und Geräusche aus anderen Richtungen auszublenden.
Kurzer Speicher verhindert übermäßige Datenspeicherung
Echo-Geräte verfügen zwar über viel Speicherplatz, nutzen diesen aber nur minimal. Laut Rohit Prasad, Vizepräsident und leitender Wissenschaftler für Alexa KI bei Amazon, kann ein Echo nur wenige Sekunden an Audio speichern.
Durch die Reduzierung dieser Speicherkapazität schützt Amazon die Privatsphäre der Nutzer (es gibt weniger Orte, an denen die Stimme gespeichert wird) und verhindert, dass Echo ganze Gespräche mithört. Der Fokus liegt somit auf dem Erkennen des Aktivierungsworts.
Man kann sich das vorstellen wie ein drei Sekunden langes Tonband, das sich nach dem Erreichen des Endes immer wieder zum Anfang zurückspult. Wenn ein Gespräch aufgezeichnet wird, wird alles, was vor vier Sekunden gesagt wurde, gelöscht und sofort überschrieben. So funktioniert ein Amazon Echo.
Es nimmt permanent auf, löscht aber zeitgleich das Aufgenommene. Diese kurze „Aufmerksamkeitsspanne“ bedeutet, dass das Gerät lediglich das Wort „Alexa“ wahrnehmen kann. Drei Sekunden reichen aber aus, um das Wort aufzunehmen, zu analysieren und entsprechend zu reagieren.
Neuronales Netztraining zur Mustererkennung
Eine Illustration der Ebenen, die von den Algorithmen von Amazon genutzt werden.
Amazon setzt auf neuronales Netztraining, um dem Echo beizubringen, wie Muster erkannt werden. Ähnlich wie bei anderen Formen des maschinellen Lernens trainiert Amazon seine Algorithmen, indem es dem System immer wieder das Wort Alexa (oder Computer oder Echo, je nachdem, welches Weckwort trainiert wird) vorspielt.
Ziel ist es, jede Tonlage und jeden Akzent, aber auch den Kontext zu berücksichtigen. Amazon möchte, dass das Echo den Unterschied erkennt, ob der Sprecher mit dem Gerät spricht, über es spricht oder vielleicht mit einer Person namens Alexa. Die Richtmikrofone unterstützen dieses Ziel zusätzlich.
Jedes Wort, das das Echo hört, durchläuft Algorithmen-Schichten. Jede Schicht ist darauf ausgelegt, Fehlalarme zu vermeiden, indem sie nach ähnlichen oder kontextbezogenen Hinweisen sucht. Wenn eine Schicht erfolgreich ist, wird das Wort an die nächste weitergegeben. Wenn das lokale Gerät schließlich erkennt, dass das Aktivierungswort gehört wurde, beginnt es mit der Aufzeichnung und leitet das Audio an die Cloud-Server von Amazon weiter. Amazon nutzt vier Algorithmen: einen für jedes Weckwort (Alexa, Computer, Echo) und einen für Alexa Guard, der bestimmte Geräusche, wie z.B. das Zerbrechen von Glas, wie ein Weckwort interpretiert.
Selbst wenn eine Übereinstimmung gefunden wird, führt Amazon noch komplexere Überprüfungen durch. Wenn das Wort Alexa in einer Fernsehsendung oder Werbung vorkommt, reagiert das Echo in der Regel nicht, da Amazon auch einen Cloud-Check durchführt.
Cloud-Überprüfungen reduzieren Fehlalarme
Diese amüsante Alexa-Werbung wird das Echo nicht aktivieren.
Wenn Unternehmen Werbespots mit Alexa produzieren, können sie das Audio an Amazon senden. Das Unternehmen lässt das Audio durch vergleichbare Mustererkennungsalgorithmen laufen, die auch zur Identifizierung des Aktivierungsworts genutzt werden. Sobald diese spezifische Instanz vollständig katalogisiert ist, wird sie einer Datenbank hinzugefügt.
Als Teil dieses Prozesses enthält das Audio, das in der Cloud ankommt, Informationen über das gehörte Aktivierungswort und wird mit dieser Datenbank verglichen. Wenn eine Übereinstimmung festgestellt wird, weist Amazon das Echo an, das Aktivierungswort zu ignorieren, die Aufzeichnung zu beenden und alle aufgezeichneten Audiodaten zu verwerfen.
Zusätzlich überprüft Amazon, ob das Weckwort gleichzeitig gesprochen wird. Da nicht jedes Unternehmen das Audio an Amazon sendet, hat das Unternehmen eine neue Backup-Lösung entwickelt. Nach der Überprüfung auf eine Übereinstimmung mit der Datenbank vergleicht das Unternehmen den „Fingerabdruck“ des Aktivierungsworts mit allen anderen gleichzeitig eingehenden Instanzen. Es ist unwahrscheinlich, dass zwei Personen, die gleichzeitig „Alexa“ sagen, genau gleich klingen. Wenn also eine Übereinstimmung festgestellt wird, weiß Amazon, dass es sich wahrscheinlich um eine Werbesendung oder Fernsehsendung handelt und ignoriert die Anfrage.
Trotz aller Überprüfungen kann es dennoch zu Fehlalarmen kommen. Man kann sich anhören, was das Echo aufgezeichnet hat, im Amazon Datenschutz-Hub und findet dort wahrscheinlich mindestens ein falsch-positives Ergebnis. Die Technologie wird jedoch ständig verbessert und Amazon möchte, dass sie eines Tages ganz ohne Weckwort funktioniert.