Hogyan hallgat Alexa az ébresztőszavakra

Alexa mindig hallgat, de nem készít folyamatosan. Nem küld semmit a felhőkiszolgálóknak, amíg meg nem hallja az ébresztő szót (Alexa, Echo vagy Computer). De az ébrenléti szavakra hallgatni nehezebb, mint gondolnád.

Az Echo hardver nem annyira intelligens. Internet nélkül minden kérés vagy kérdés meghiúsul. Ez azért van, mert a parancsaidat a felhőbe küldik értelmezés és döntések céljából. Az Amazon nem akarja, hogy az intelligens hangszóró előtt folytatott összes beszélgetést rögzítsék, hanem csak az intelligens hangszórónak adott parancsokat. Emiatt a vállalat ébresztő szót alkalmaz, hogy felhívja az intelligens hangszóró figyelmét. Ennek eléréséhez az Amazon finomhangolt mikrofonok, rövid memóriapuffer és neurális hálózati képzés kombinációját használja.

Finomhangolt mikrofonok határozzák meg a hangját

A világoskék LED mindig a hangod irányába néz.

A hangasszisztens hangszórók, mint például az Echo és az Echo Dot, általában több beépített mikrofonnal rendelkeznek. Az Echo Dot-nak például hét van. Ez a tömb számos lehetőséget biztosít az eszközöknek, a távolról kimondott parancsok hallásától a háttérzaj és a hangok elkülönítéséig.

Ez utóbbi különösen hasznos az ébresztőszó észleléséhez. Több mikrofonja segítségével az Echo pontosan meghatározhatja az Ön tartózkodási helyét az ülőhelyhez képest, és abba az irányba hallgathat, miközben figyelmen kívül hagyja a szoba többi részét.

  Diák függőleges beállítása a PowerPointban

Ezt mindig működés közben látja, amikor az ébresztés szót használja. Álljon egy Echo vagy Echo Dot oldalára, és mondja ki az ébresztő szót. Figyelje meg, hogy a gyűrű sötétkék színben világít, majd világosabb kék színnel világít, ahogy körbejár és Ön felé „mutat”. Most lépjen néhány lépést oldalra, és mondja ki még egyszer az ébresztő szót. Figyelje meg, hogy a világoskék fények követik Önt.

Ha tudja, hol tartózkodik, az eszköz jobban összpontosíthat Önre és hangolja ki a máshonnan érkező zajokat.

A rövid memória megakadályozza, hogy a hangszóró túl sokat tartson

Az Echo eszközöknek bőven van tárhelyük, de keveset használnak belőle. Rohit Prasad, az Amazon alelnöke és az Alexa Artificial Intelligence vezető tudósa szerint az Echo fizikailag csak néhány másodpercnyi hangot tud tárolni.

A képesség csökkentésével az Amazon nem csak nagyobb adatvédelmet biztosít (egyetlen helyen tárolja a hangját), hanem megakadályozza, hogy az Echo a teljes beszélgetést meghallgassa, és az ébresztőszó megtalálására korlátozza a figyelmét.

Képzeld el, hogy van egy három másodperces kazettád és egy magnód. Tegyük fel, hogy miután a végére ért, a szalag újra és újra visszakerült az elejére. Ha elkezdene rögzíteni egy beszélgetést, minden, amit négy másodperccel ezelőtt mondott, törlődik, és azonnal rögzítésre kerül. Ezt teszi az Amazon Echo.

Folyamatosan rögzít, de egyszerre töröl mindent, amit éppen rögzített. Ez a rövid figyelem azt jelenti, hogy csak az „Alexa” szót hallja, és nem sokkal többet. Három másodperc azonban elég hosszú ahhoz, hogy ezt a szót rögzítsük, megvizsgáljuk, és megfelelően cselekedjünk.

  Hogyan tegyük a Word dokumentumokat kitölthetővé, de nem szerkeszthetővé

A neurális hálózatok képzése segít a mintaillesztésben

Az Amazon algoritmusai által használt rétegek ábrázolása.

Végül az Amazon attól függ neurális háló képzés hogy megtanítsa az Echót a mintaillesztésre. A gépi tanulás más formáihoz hasonlóan az Amazon is úgy tanítja az algoritmusait, hogy az Alexa szót (vagy Computer vagy Echo, attól függően, hogy a vállalat melyik ébresztőszót használja) példány után adja meg.

Az ötlet az, hogy lefedjen minden hajlítást és hangsúlyt, de a szövegkörnyezetet is. Az Amazon azt akarja, hogy az Echo felismerje a különbséget, amikor beszélsz vele, amikor beszélsz róla, vagy esetleg amikor egy Alexa nevű személlyel beszélsz. Az irányított mikrofonok is segítenek ebben a célban.

Az Echo minden szóval, amit hall, algoritmusok rétegein keresztül futtatja a hangot. Minden réteg úgy van megtervezve, hogy kizárja a hamis pozitívumot, hangszerű vagy kontextusra utaló nyomokat keresve. Ha az egyik réteg ellenőrzése sikeres, a szó a következőre megy. Végül, amikor a helyi eszköz úgy dönt, hogy hallotta az ébresztőszót, elkezdi rögzíteni és továbbítani a hangot az Amazon felhőkiszolgálóinak. Az Amazon négy algoritmust alkalmaz: egyet minden ébresztőszóhoz (Alexa, Computer, Echo), egyet pedig az Alexa Guardhoz, amely ébresztőszóként kezeli az egyes hangokat, például az üvegtörést.

De még akkor is, ha egyezés történik, az Amazon bonyolultabb ellenőrzéseket hajt végre. Észrevetted, hogy amikor valaki kimondja az Alexa szót egy tévéműsorban vagy reklámban, az általában nem vált ki választ az Echo-ból? Ennek az az oka, hogy az Amazon felhőellenőrzést is végez.

  Mi a különbség az 5G és az 5GHz-es Wi-Fi között?

A felhőellenőrzések kizárnak néhány hamis pozitívumot

Ez vidám Alexa reklám nem ébreszti fel az Echo-t.

Amikor a cégek olyan reklámokat készítenek, amelyekben Alexa szerepel, megtehetik küldje el a hanganyagot az Amazonnak. A vállalat a hangot az ébresztőszó azonosítására használt hasonló mintaillesztő algoritmusokon keresztül futtatja. Amint az adott példány teljesen katalogizálva van, hozzáadódik egy adatbázishoz.

A felhő eléréséhez szükséges folyamat részeként az Echo információkat tartalmaz a hallott ébresztőszóról, és ellenőrzi az adatbázist. Amikor egyezést talál, az Amazon utasítja az Echo-t, hogy figyelmen kívül hagyja az ébresztőszót, állítsa le, és dobja el a rögzített hangot.

Ezenkívül az Amazon ellenőrzi, hogy az ébresztőszó egyidejűleg elhangzott-e. Nem minden cég küld hangot az Amazonnak, ezért a cég egy újszerű biztonsági mentési megoldással állt elő. Az adatbázis egyezésének ellenőrzése után a vállalat összehasonlítja az ébrenléti szó lenyomatát minden más, ugyanabban az időben érkező példányral. Nem valószínű, hogy két ember, aki egyszerre mond Alexa szót, teljesen egyforma hangzású lenne, így ha egyezés van, az Amazon tudja, hogy az valószínűleg egy reklám vagy tévéműsor, és figyelmen kívül hagyja a kérést.

Az összes ellenőrzés ellenére még mindig előfordulnak téves pozitív eredmények. Meghallgathatja, hogy mit vett fel az Echo készüléke Az Amazon adatvédelmi központja, és valószínűleg talál legalább egy téves pozitív eredményt a csoportban. A technológiát azonban folyamatosan fejlesztik, és végül az Amazon szeretné, ha ébresztőszó nélkül működne.