Sprachgesteuerte Assistenten, wie Alexa, der Google Assistant und Siri, haben in den vergangenen Jahren beachtliche Fortschritte erzielt. Trotz dieser Entwicklung bleibt ein Kernproblem bestehen: Das tatsächliche Verstehen der Nutzer. Diese Systeme verlassen sich stark auf vorprogrammierte Sprachbefehle und haben Schwierigkeiten mit Abweichungen.
Spracherkennung – Ein cleverer Trick
Tatsächlich verstehen Sprachassistenten ihre Nutzer nicht wirklich. Wenn man mit einem Google Home oder Amazon Echo interagiert, wird das Gesprochene in eine Textfolge umgewandelt und mit erwarteten Befehlen abgeglichen. Bei Übereinstimmung werden vorprogrammierte Anweisungen ausgeführt. Findet sich keine genaue Entsprechung, wird nach Alternativen gesucht oder eine Fehlermeldung wie „Das weiß ich leider nicht“ ausgegeben. Es handelt sich mehr um einen ausgeklügelten Mechanismus, der den Eindruck erweckt, die Systeme verstünden die Anliegen.
Kontextbezogene Informationen werden kaum berücksichtigt und es fehlt die Fähigkeit, aus dem Zusammenhang zu schließen oder ähnliches Wissen zur Entscheidungsfindung heranzuziehen. Es ist relativ einfach, Sprachassistenten zu verwirren. So kann beispielsweise die Frage „Arbeitest du für die NSA?“ zwar beantwortet werden, während die leicht abgewandelte Frage „Bist du heimlich Teil der NSA?“ oft mit einem „Das weiß ich nicht“ quittiert wird (zumindest zum Zeitpunkt des Verfassens dieses Artikels).
Menschen verarbeiten Sprache anders. Wird beispielsweise gefragt: „Was ist das Klarvain am Himmel? Es ist gewölbt und hat Streifen in Rot, Orange, Gelb und Blau.“, kann eine Person trotz des erfundenen Wortes „Klarvain“ aufgrund des Kontextes erkennen, dass ein Regenbogen gemeint ist.
Der Unterschied liegt darin, dass Menschen Sprache in Ideen umwandeln und ihr Wissen und Verständnis nutzen, um Antworten zu schließen. Auf die Frage, ob man heimlich für die NSA arbeitet, würden Menschen mit Ja oder Nein antworten, selbst wenn die Antwort nicht der Wahrheit entspricht. Ein Sprachassistent würde in einem solchen Fall nicht mit „Das weiß ich nicht“ reagieren. Die Fähigkeit zu lügen ist ein Zeichen von echtem Verständnis.
Begrenzte Möglichkeiten durch Programmierung
Sprachassistenten sind durch ihre Programmierung auf erwartete Parameter beschränkt. Abweichungen von diesen Parametern führen zu Problemen. Dies wird besonders deutlich bei der Interaktion mit Geräten von Drittanbietern. Befehle werden oft umständlich, beispielsweise „Gerätehersteller anweisen, optionale Argumente zu befehlen“. Ein Beispiel: „Whirlpool anweisen, den Trockner anzuhalten.“ Ein weiteres Beispiel ist die Steuerung von GE-Öfen über den Genfer Alexa-Skill. Benutzer müssen „Genf“ und nicht „GE“ sagen, gefolgt vom Rest des Befehls. Während man den Ofen auf 350 Grad vorheizen kann, ist es nicht möglich, die Temperatur nachträglich um 50 Grad zu erhöhen. Ein Mensch hingegen könnte diese Anfragen verstehen und ausführen.
Amazon und Google haben zwar Anstrengungen unternommen, diese Hürden zu überwinden, aber es gibt immer noch Grenzen. Wo man früher umständliche Befehle verwenden musste, um ein intelligentes Schloss zu verriegeln, reicht jetzt der einfache Satz „Haustür verriegeln“. Auch die Frage nach einem Hundewitz wird von Alexa inzwischen verstanden. Zwar wurden Variationen zu Befehlen hinzugefügt, doch letztendlich muss man den korrekten Befehl in der richtigen Reihenfolge kennen.
Diese Funktionsweise ähnelt stark der einer Befehlszeile.
Sprachassistenten sind im Grunde Befehlszeilen
Befehlszeilen sind für einfache Aufgaben ausgelegt, erfordern jedoch eine genaue Kenntnis der Syntax. Fehlerhafte Eingaben wie „dyr“ anstelle von „dir“ führen zu Fehlermeldungen. Man kann zwar Aliase verwenden, um Befehle zu vereinfachen, aber das erfordert wiederum Kenntnisse über die ursprünglichen Befehle und deren Funktionsweise. Ohne die Besonderheiten der Befehlszeile zu verstehen, wird man sie kaum effektiv nutzen können.
Sprachassistenten funktionieren ähnlich. Man muss Befehle korrekt aussprechen und Fragen richtig formulieren. Zudem ist es notwendig, Gruppen für Google und Alexa einzurichten, zu verstehen, warum die Gruppierung von Geräten wichtig ist, und wie man Smart-Geräte benennt. Wer diese Schritte nicht beachtet, kann schnell frustriert sein, wenn beispielsweise die Anfrage zum Ausschalten des Lichts im Arbeitszimmer mit der Gegenfrage „Welches Arbeitszimmer?“ beantwortet wird.
Selbst bei korrekter Syntax und Reihenfolge können Fehler auftreten, entweder mit falschen Antworten oder unerwarteten Ergebnissen. So können beispielsweise zwei Google Home Geräte im selben Haushalt unterschiedliche Wetterdaten für ähnliche Orte anzeigen, obwohl sie auf dieselben Benutzerkontodaten und Internetverbindung zugreifen.
Im obigen Beispiel wird der Befehl „Timer für eine halbe Stunde stellen“ gegeben. Der Google Home Hub hat einen Timer mit dem Namen „Stunde“ erstellt und nach der Timerdauer gefragt. Nach dreimaliger Wiederholung des gleichen Befehls wurde jedoch korrekt ein 30-Minuten-Timer erstellt. Der Befehl „Timer auf 30 Minuten stellen“ funktioniert in der Regel konsistenter und korrekt.
Sprachassistenten und Befehlszeilen funktionieren im Grunde auf die gleiche Art und Weise, auch wenn die Interaktion mit Sprachassistenten natürlicher erscheinen mag. Man muss keine neue Sprache lernen, sondern eher einen neuen Dialekt.
Begrenzungen durch fehlendes Verständnis
Trotz allem sind Sprachassistenten wie Google Assistant und Alexa durchaus nützlich (Cortana bildet hier eine Ausnahme). Sie können Fragen über das Internet beantworten (wobei Google natürlich in diesem Bereich überlegen ist) und einfache Fragen wie Maßeinheitenumrechnungen und grundlegende Mathematik erledigen. Mit einem gut konfigurierten Smart Home und einem geschulten Benutzer funktionieren die meisten Smart-Home-Befehle wie erwartet. Dies erfordert jedoch viel Arbeit und Anstrengung, ist aber nicht das Ergebnis eines echten, intelligenten Verständnisses.
Timer und Alarme waren früher sehr einfach. Später wurde die Benennung hinzugefügt, dann die Möglichkeit, einem Timer Zeit hinzuzufügen. Es entwickelte sich von einfach zu kompliziert. Sprachassistenten können immer mehr Fragen beantworten und jeden Tag kommen neue Fähigkeiten und Funktionen hinzu. Aber dies ist nicht das Ergebnis eines eigenständigen Wachstums durch Lernen und Verstehen.
Diese Systeme sind nicht in der Lage, Bekanntes zu nutzen, um das Unbekannte zu erschließen. Auf jeden Befehl oder jede Frage, die funktioniert, kommen oft drei, die nicht funktionieren. Solange es keinen Durchbruch in der KI gibt, der es ermöglicht, ein menschenähnliches Verständnis zu erreichen, sind Sprachassistenten keine echten Assistenten. Sie sind lediglich sprachgesteuerte Befehlszeilen – nützlich in bestimmten Situationen, aber begrenzt auf die Bereiche, für deren Verständnis sie programmiert wurden.
Mit anderen Worten, Maschinen können Dinge lernen, aber sie verstehen sie nicht wirklich.