Az Alexa, a Siri és a Google nem értik a kimondott szavakat

Az olyan hangasszisztensek, mint az Alexa, a Google Assistant és a Siri, hosszú utat tettek meg az elmúlt néhány évben. De minden fejlesztésük ellenére egy dolog visszatartja őket: nem értenek meg téged. Túlságosan támaszkodnak konkrét hangutasításokra.

A beszédfelismerés csak egy varázstrükk

A hangsegédek nem értenek téged. Amúgy nem igazán. Amikor egy Google Home vagy Amazon Echo eszközhöz beszél, az lényegében szöveges karakterláncokká alakítja a szavait, majd összehasonlítja a várt parancsokkal. Ha megtalálja a pontos egyezést, akkor követi az utasításokat. Ha nem, akkor alternatívát keres, hogy mit tegyen a birtokában lévő információk alapján, és ha ez nem működik, hibaüzenetet kap, például „Sajnálom, de nem tudom, hogy .” Alig több egy kézi varázslatnál, ha azt hiszik, hogy megérti.

Nem tud kontextuális nyomokat felhasználni a legjobb tippek meghozatalára, de még a hasonló témák megértését sem használhatja döntéseihez. A hangasszisztenseket sem nehéz kiiktatni. Miközben megkérdezheti Alexától: „Az NSA-nak dolgozik?” és választ kap, ha azt kérdezi: „Titokban az NSA tagja?” „Ezt nem ismerem” választ kap (legalábbis az írás idején).

Az emberek, akik valóban értik a beszédet, nem így működnek. Tegyük fel, hogy megkérdezi egy embert: „Mi az a klarvain az égen? Azt, amelyik íves, és tele van csíkos színekkel, mint a piros, narancs, sárga és kék. Annak ellenére, hogy a klarvain kitalált szó, a megkérdezett személy valószínűleg kitalálhatja a szövegkörnyezetből, hogy Ön egy szivárványt ír le.

  5 legjobb alkalmazásindító Linuxhoz

Míg lehet vitatkozni azzal, hogy az ember a beszédet gondolatokká alakítja, az ember ezután tudását és megértését alkalmazhatja a válasz megkötéséhez. Ha megkérdezünk egy embert, hogy titokban az NSA-nak dolgozik-e, igen vagy nem választ adnak, még akkor is, ha a válasz hazugság. Egy ember nem mondana azt, hogy „azt nem ismerem” egy ilyen kérdésre. Az, hogy az emberek hazudhatnak, valódi megértéssel jár.

A hangasszisztensek nem tudnak túllépni programozásukon

A hangasszisztensek végső soron a programozott várható paraméterekre korlátozódnak, és a rajtuk kívüli vándorlás megszakítja a folyamatot. Ez a tény azt mutatja, amikor harmadik féltől származó eszközök kerülnek játékba. Általában az ezekkel való interakció parancsa nagyon nehézkes, annyit tesz, mint „mondd meg az eszköz gyártóját, hogy parancsoljon opcionális argumentumokat”. Pontos példa a következő: „Mondd meg a Whirlpoolnak, hogy állítsa le a szárítót.” Egy még nehezebben megjegyezhető példaként a Genf Alexa készség vezérel néhány GE sütőt. A készség használójának emlékeznie kell arra, hogy „mondja el Genfnek”, ne „mondja el a GE-nek”, hanem a parancs többi részét. És bár kérheti, hogy melegítse elő a sütőt 350 fokra, nem követheti azt a kérést, hogy további 50 fokkal növelje a hőmérsékletet. Egy ember azonban követheti ezeket a kéréseket.

Az Amazon és a Google nagyon keményen dolgozott ezen akadályok leküzdésén, és ez meg is látszik. Ahol korábban a fenti sorrendet kellett követnie az intelligens zár vezérléséhez, most már azt mondhatja, hogy „zárja be a bejárati ajtót”. Alexát korábban összezavarta a „mondj egy kutyaviccet”, de ma kérj egyet, és működni fog. Változatokat adtak az Ön által használt parancsokhoz, de végül még mindig tudnia kell a megfelelő parancsot. A helyes szintaxist kell használni, a megfelelő sorrendben.

  Hogyan telepítsem a Vidiot videószerkesztőt Linuxra

És ha úgy gondolja, hogy ez nagyon úgy hangzik, mint egy parancssor, akkor nem téved.

A Voice Assistantek egy divatos parancssor

A parancssor szűken definiált egyszerű feladatok végrehajtására, de csak akkor, ha ismeri a megfelelő szintaxist. Ha kicsúszik a helyes szintaxisból, és a dir helyett a dyr parancsot írja be, akkor a parancssor hibaüzenetet ad. Használhat álneveket a parancsok könnyebb megjegyezéséhez, de ismernie kell az eredeti parancsokat, működésüket és az álnevek hatékony használatát. Ha nem szán rá időt, hogy megtanulja a parancssort, akkor soha nem fog sokat kihozni belőle.

A hangasszisztensek nem különböznek egymástól. Tudnia kell, hogyan kell kimondani a parancsot vagy feltenni egy kérdést. És tudnia kell, hogyan hozhat létre csoportokat a Google és az Alexa számára, miért elengedhetetlen az eszközök csoportosítása, és hogyan nevezze el okoseszközeit. Ha nem követi ezeket a szükséges lépéseket, frusztrációt fog érezni amiatt, hogy megkéri a hangos asszisztenst, hogy kapcsolja ki a tanulmányozást, csak akkor kérdezi meg, hogy „melyik tanulmányt” kell kikapcsolni.

Még ha a megfelelő szintaxist a megfelelő sorrendben használja is, a folyamat meghiúsulhat. Vagy rossz választ adott ki, vagy meglepő eredménnyel. Két, ugyanabban a házban lévő Google Home némileg eltérő helyekre adhat időjárást, még akkor is, ha ugyanazokhoz a felhasználói fiókadatokhoz és internetkapcsolathoz férnek hozzá.

A fenti példában az „Időzítő beállítása fél órára” parancsot adjuk. A Google Home hub létrehozott egy „Óra” nevű időzítőt, majd megkérdezte, mennyi ideig kell tartania az időzítőt. És mégis, ugyanazt a parancsot háromszor megismételve megfelelően működött, és 30 perces időzítőt hozott létre. Az „Időzítő beállítása 30 percre” parancs használata következetesebben működik.

  A Microsoft Mouse and Keyboard Center telepítése

Míg a Google Home-hoz vagy az Echo-hoz való beszéd gördülékenyebb lehet, a motorháztető alatti hangsegédek és parancssorok ugyanúgy működnek. Lehet, hogy nem új nyelvet kell megtanulnod, de egy új dialektust kell megtanulnod.

A hangasszisztensek szűk értelmezése korlátozza a növekedést

Ezek egyike sem akadályozza meg az olyan hangsegédeket, mint a Google Assistant és az Alexa, hogy elég jól működjenek (bár a Cortana egy másik történet). A Google Asszisztens és az Alexa segítségével tisztességesen kereshet kérdéseket az interneten, bár nem meglepő módon a Google jobban keres, és meg tud válaszolni olyan alapvető kérdéseket, mint a mérési konverziók és az egyszerű matematika. Helyesen beállított okosotthon és jól képzett felhasználó esetén a legtöbb intelligens otthon parancs a rendeltetésszerűen fog működni. De ez munkával és erőfeszítéssel jött létre, nem intellektuális megértésből.

Az időzítők és riasztások korábban leegyszerűsítettek. Idővel hozzáadásra került a névadás, majd az idő hozzáadásának lehetősége az időzítőhöz. Az egyszerűsítéstől a bonyolultabb felé haladtak. A hangsegédek több kérdésre tudnak válaszolni, és minden nap új készségeket és funkciókat hoz. De ez nem a tanulásból és megértésből fakadó önnövekedés terméke.

És ezek egyike sem biztosítja azt a benne rejlő képességet, hogy az ismertet felhasználva elérje az ismeretlent. Minden működő parancshoz és kérdéshez mindig lesz három, ami nem működik. A mesterséges intelligencia áttörése nélkül, amely emberhez hasonló képességet biztosít a megértéshez, a Voice asszisztensek egyáltalán nem asszisztensek. Ezek csak hangos parancssorok – hasznosak a megfelelő forgatókönyvben, de csak azokra a forgatókönyvekre korlátozódnak, amelyek megértésére programozták őket.

Más szóval: a gépek tanulnak dolgokat, de nem értik meg azokat.