Audio Deep hamisítványok: Meg tudja mondani valaki, hogy hamisak?

A videó mélyhamisítása azt jelenti, hogy nem bízhatsz mindenben, amit látsz. A mélyhamisítások azt jelenthetik, hogy többé nem bízhat a fülében. Valóban az elnök hadat üzent Kanadának? Tényleg az apád telefonál, és az e-mail jelszavát kéri?

Adjunk hozzá még egy egzisztenciális aggodalmat ahhoz a listához, hogy saját hübriszünk hogyan pusztíthat el minket elkerülhetetlenül. A Reagan-korszakban az egyetlen valódi technológiai kockázat a nukleáris, vegyi és biológiai hadviselés veszélye volt.

Az elkövetkező években lehetőségünk nyílt a nanotechnológiával és a globális világjárványokkal kapcsolatos megszállottságra. Most mélyhamisítások vannak – olyan emberek, akik elveszítik az uralmat a hasonlatosságuk vagy a hangjuk felett.

Tartalomjegyzék

Mi az a mélyhanghamisítás?

A legtöbben látott már olyan videós mélyhamisítást, amelyben mélytanulási algoritmusokat használnak arra, hogy egy személyt valaki más képére cseréljenek. A legjobbak megdöbbentően valósághűek, és most a hangon a sor. A hang mélyhamisítása az, amikor egy „klónozott” hangot használnak fel szintetikus hang előállítására, amely potenciálisan megkülönböztethetetlen a valódi személy hangjától.

„Olyan ez, mint a Photoshop a hanghoz” – mondta Zohaib Ahmed, a cég vezérigazgatója Hasonlítson az AI-re, cége hangklónozási technológiájáról.

A rossz Photoshop-feladatokat azonban könnyen leleplezhetjük. Egy biztonsági cég, akivel beszélgettünk, azt mondta, hogy az emberek általában csak sejtik, hogy a mélyhamisítás valódi vagy hamis, körülbelül 57 százalékos pontossággal – ez nem jobb, mint egy érmefeldobás.

Ezen túlmenően, mivel sok hangfelvétel gyenge minőségű telefonhívásokról készült (vagy zajos helyeken rögzített), a mélyhamisítások még megkülönböztethetetlenebbé tehetők. Minél rosszabb a hangminőség, annál nehezebb felfogni azokat az árulkodó jeleket, amelyek arra utalnak, hogy egy hang nem igazi.

De miért kellene bárkinek is egy Photoshop a hangokhoz?

A szintetikus hangzás lenyűgöző esete

Valójában óriási a kereslet a szintetikus hangra. Ahmed szerint „a ROI nagyon azonnali”.

Ez különösen igaz, ha játékról van szó. A múltban a beszéd volt az egyetlen olyan összetevő a játékban, amelyet lehetetlen volt igény szerint létrehozni. Még azokban az interaktív címekben is, amelyekben mozi minőségű jelenetek valós időben jelennek meg, a nem játszó karakterekkel folytatott verbális interakció alapvetően mindig statikus.

Most azonban utolérte a technológia. A stúdiókban megvan a lehetőség arra, hogy klónozzák a színész hangját, és szövegfelolvasó motorokat alkalmazzanak, hogy a karakterek bármit elmondhassanak valós időben.

Vannak hagyományosabb felhasználási módok is a reklámozásban, valamint a műszaki és ügyfélszolgálatban. Itt egy olyan hang a fontos, amely hitelesen emberi megszólalásig szól, és személyesen és kontextuálisan válaszol emberi beavatkozás nélkül.

A hangklónozó cégeket az orvosi alkalmazások is izgatják. Természetesen a hangcsere nem újdonság az orvostudományban – Stephen Hawking híresen használt egy robotizált szintetizált hangot, miután 1985-ben elveszítette a sajátját. A modern hangklónozás azonban még jobbat ígér.

2008-ban a szintetikus hangokat gyártó cég, CereProc, a néhai filmkritikus, Roger Ebert visszaadta a hangját, miután a rák elvette. A CereProc közzétett egy weboldalt, amely lehetővé tette az emberek számára, hogy olyan üzeneteket írjanak be, amelyeket azután George Bush volt elnök hangján mondanak el.

„Ebert látta ezt, és azt gondolta: „Nos, ha le tudják másolni Bush hangját, akkor az enyémet is le tudják másolni” – mondta Matthew Aylett, a CereProc tudományos főmunkatársa. Ebert ezután felkérte a céget, hogy hozzanak létre egy helyettesítő hangot, amit egy nagy hangfelvétel-könyvtár feldolgozásával tettek meg.

Melyik a legjobb [Comparison]

„Ez volt az egyik első alkalom, amikor valaki ilyet csinált, és ez igazi siker volt” – mondta Aylett.

Az elmúlt években számos vállalat (köztük a CereProc) dolgozott együtt a ALS Egyesület tovább Revoice projekt szintetikus hangok biztosítása az ALS-ben szenvedők számára.

Hogyan működik a szintetikus hang

A hangklónozásnak most van egy pillanata, és egy csomó vállalat fejleszt eszközöket. Hasonlítson az AI-re és Leírás vannak online demói, amelyeket bárki ingyenesen kipróbálhat. Csak rögzíti a képernyőn megjelenő kifejezéseket, és néhány perc alatt elkészül a hangmodell.

Az AI-nak – különösen a mélytanulási algoritmusoknak – köszönheti, hogy képesek a rögzített beszédet a szöveghez párosítani, hogy megértsék a hangját alkotó összetevő fonémákat. Ezután a kapott nyelvi építőelemeket használja fel a szavak közelítésére, amelyeket nem hallott beszélni.

Az alaptechnológia már egy ideje létezik, de mint Aylett rámutatott, ehhez némi segítségre volt szükség.

„A hangmásolás kicsit olyan volt, mint a péksütemény készítése” – mondta. „Kicsit nehéz volt megcsinálni, és többféleképpen kellett kézzel finomítani, hogy működjön.”

A fejlesztőknek óriási mennyiségű rögzített hangadatra volt szükségük ahhoz, hogy elfogadható eredményeket érjenek el. Aztán néhány éve kinyíltak a zsilipek. A számítógépes látás területén végzett kutatás kritikus fontosságúnak bizonyult. A tudósok generatív ellenséges hálózatokat (GAN-okat) fejlesztettek ki, amelyek most először voltak képesek extrapolálni és előrejelzéseket készíteni a meglévő adatok alapján.

„Ahelyett, hogy a számítógép látna egy képet egy lóról, és azt mondaná, hogy „ez egy ló”, a modellem most zebrát tudna varázsolni egy lóból” – mondta Aylett. „Tehát a beszédszintézis robbanásszerű növekedése a számítógépes látásból származó tudományos munkának köszönhető.”

A hangklónozás egyik legnagyobb újítása a hang létrehozásához szükséges nyers adatmennyiség általános csökkentése volt. A múltban a rendszereknek több tucat vagy akár több száz órányi hangra volt szükségük. Most azonban kompetens hangokat lehet generálni néhány percnyi tartalomból.

Az egzisztenciális félelem attól, hogy nem bízunk semmiben

Ez a technológia az atomenergiával, a nanotechnológiával, a 3D nyomtatással és a CRISPR-rel együtt egyszerre izgalmas és félelmetes. Hiszen a hírekben már szerepeltek olyan esetek, amikor az embereket becsapták a hangklónok. 2019-ben egy brit cég azt állította, hogy ez volt becsapott egy audio mélyhamisítás telefonhívás pénzt utalni a bűnözőknek.

Nem kell messzire mennie ahhoz, hogy meglepően meggyőző hanghamisítványokat találjon. YouTube csatorna Énekszintézis jól ismert emberek olyan dolgokat mondanak el, amelyeket soha nem mondtak, például George W. Bush 50 Cent „In Da Club” című könyvét olvassa. Rendben van.

A YouTube-on máshol egy sereg volt elnököt hallhat, köztük Obama, Clinton és Reagan, az NWA-t rappelve. A zene és a háttérhangok segítenek leplezni a nyilvánvaló robothibákat, de még ebben a tökéletlen állapotban is nyilvánvaló a lehetőség.

Kísérleteztünk az eszközökkel Hasonlítson az AI-re és Leírás és létrehozta a hangklónt. A Descript egy hangklónozó motort használ, amelyet eredetileg Lyrebirdnek hívtak, és különösen lenyűgöző volt. Megdöbbentünk a minőségen. Ha hallod a saját hangodat olyan dolgokat mondasz, amiről tudod, hogy soha nem mondtad el, az idegesítő.

Miért nagy dolog az iPhone 12 Dolby Vision HDR felvétele?

Határozottan van a beszédnek valami robotos tulajdonsága, de ha egyszer hallgatja, a legtöbb embernek nincs oka azt hinni, hogy hamisítvány.

Még nagyobb reményeket fűztünk a Resemble AI-hez. Eszközöket ad több hangú beszélgetés létrehozásához, valamint a párbeszéd kifejezőkészségének, érzelmeinek és ütemének megváltoztatásához. Nem gondoltuk azonban, hogy a hangmodell megragadja az általunk használt hang alapvető tulajdonságait. Valójában nem valószínű, hogy bárkit is becsapott volna.

A Resemble AI képviselője elmondta, hogy „a legtöbb embert lenyűgözik az eredmények, ha helyesen csinálják”. Kétszer építettünk hangmodellt hasonló eredménnyel. Tehát nyilvánvalóan nem mindig könnyű olyan hangklónt készíteni, amellyel digitális rablást hajthat végre.

Ennek ellenére a Lyrebird (amely jelenleg a Descript része) alapítója, Kundan Kumar úgy érzi, már túlléptük ezt a küszöböt.

„Az esetek kis százalékában már ott van” – mondta Kumar. „Ha szintetikus hangot használok néhány szó megváltoztatására a beszédben, az már olyan jó, hogy nehezen fogod tudni, mi változott.”

Azt is feltételezhetjük, hogy ez a technológia idővel csak javulni fog. A rendszereknek kevesebb hangra lesz szükségük a modell létrehozásához, és a gyorsabb processzorok képesek lesznek valós időben elkészíteni a modellt. Az intelligensebb mesterséges intelligencia megtanulja, hogyan adjon meggyőzőbb, emberhez hasonló ütemet és hangsúlyozza a beszédet anélkül, hogy példa lenne a munkavégzésre.

Ez azt jelenti, hogy közelebb kúszhatunk a könnyű hangklónozás széles körű elérhetőségéhez.

Pandora szelencéjének etikája

A legtöbb ezen a területen dolgozó vállalat készen áll arra, hogy biztonságos és felelősségteljes módon kezelje a technológiát. Hasonlítson például az AI-re egy teljes „Etikai” részt a honlapján, és a következő részlet biztató:

„Szigorú folyamaton keresztül dolgozunk a vállalatokkal annak érdekében, hogy megbizonyosodjunk arról, hogy az általuk klónozott hangot felhasználhatják, és megvannak a megfelelő beleegyezéseik a szinkronhangszereplőkkel.”

Hasonlóképpen Kumar azt mondta, hogy Lyrebird kezdettől fogva aggódott a visszaélés miatt. Ezért most a Descript részeként csak a saját hangjuk klónozását teszi lehetővé. Valójában mind a Resemble, mind a Descript megköveteli, hogy az emberek élőben rögzítsék a mintáikat, hogy megakadályozzák a nem konszenzusos hangklónozást.

Megnyugtató, hogy a nagy kereskedelmi szereplők bizonyos etikai irányelveket támasztanak. Fontos azonban megjegyezni, hogy ezek a vállalatok nem a kapuőrei ennek a technológiának. Számos nyílt forráskódú eszköz létezik már a természetben, amelyekre nincsenek szabályok. Henry Ajder, a fenyegetésekkel kapcsolatos hírszerzés vezetője szerint Deeptrace, nincs szükség fejlett kódolási ismeretekre sem a visszaéléshez.

„A térben elért haladás nagy része az olyan helyeken végzett együttműködésen keresztül valósult meg, mint a GitHub, a korábban publikált tudományos dolgozatok nyílt forráskódú implementációinak felhasználásával” – mondta Ajder. „Bárki használhatja, aki közepesen jártas a kódolásban.”

A biztonsági szakemberek látták mindezt korábban

A bûnözõk már jóval azelõtt megpróbáltak pénzt lopni telefonon, hogy a hangklónozás lehetséges lett volna, és a biztonsági szakemberek mindig készenlétben voltak, hogy észleljék és megakadályozzák. Biztonsági cég Pindrop megpróbálja megállítani a banki csalást azáltal, hogy ellenőrzi, hogy a hívó az-e, akinek állítja magát a hangfelvétel alapján. Csak 2019-ben a Pindrop azt állítja, hogy 1,2 milliárd hanginterakciót elemzett, és mintegy 470 millió dolláros csalási kísérletet akadályozott meg.

A hangklónozás előtt a csalók számos más technikát is kipróbáltak. A legegyszerűbb az volt, hogy máshonnan felhívtam a jellel kapcsolatos személyes információval.

„Akusztikus aláírásunk lehetővé teszi, hogy megállapítsuk, hogy a hívás valóban egy nigériai Skype-telefonról érkezik a hangjellemzők miatt” – mondta a Pindrop vezérigazgatója, Vijay Balasubramaniyan. „Ezután összehasonlíthatjuk, hogy tudjuk, hogy az ügyfél AT&T telefont használ Atlantában.”

Zene átvitele az iTunes-ról Androidra

Egyes bűnözők is karriert csináltak abból, hogy háttérhangokat használnak a banki képviselők lejáratására.

„Van egy csaló, akit Chicken Man-nek hívtunk, és mindig kakasok jártak a háttérben” – mondta Balasubramaniyan. „És van egy hölgy, aki egy csecsemősírást használt a háttérben, hogy lényegében meggyőzze a telefonközpont ügynökeit, hogy „hé, nehéz időszakon megyek keresztül”, hogy együttérzést szerezzen.”

És ott vannak a férfibûnözõk, akik a nõk bankszámlái után járnak.

„Technológiát használnak a hangjuk frekvenciájának növelésére, hogy nőiesebben szóljanak” – magyarázta Balasubramaniyan. Ezek sikeresek lehetnek, de „alkalmanként a szoftver összezavarodik, és úgy hangzik, mint Alvin és a mókusok”.

Természetesen a hangklónozás csak a legújabb fejlemény ebben az egyre fokozódó háborúban. A biztonsági cégek már legalább egy lándzsás támadás során elkaptak csalókat, akik szintetikus hangot használtak.

„Megfelelő cél mellett a kifizetés hatalmas lehet” – mondta Balasubramaniyan. „Tehát ésszerű időt áldozni a megfelelő egyén szintetizált hangjának megteremtésére.”

Valaki meg tudja mondani, ha egy hang hamis?

Ha fel kell ismerni, ha egy hangot meghamisítottak, akkor vannak jó és rossz hírek is. A rossz az, hogy a hangklónok napról napra jobbak. A mélytanulási rendszerek egyre okosabbak, és hitelesebb hangokat adnak, amelyek létrehozásához kevesebb hangra van szükség.

Ahogy ebből a klipből is kiderül Obama elnök azt mondta MC Rennek, hogy foglaljon állást, mi is eljutottunk már odáig, hogy egy nagy hűségű, gondosan felépített hangmodell elég meggyőzően hangzik az emberi fül számára.

Minél hosszabb egy hangfelvétel, annál valószínűbb, hogy észreveszi, hogy valami nincs rendben. A rövidebb klipeknél azonban előfordulhat, hogy nem veszi észre, hogy szintetikus – különösen, ha nincs okunk megkérdőjelezni a legitimitását.

Minél tisztább a hangminőség, annál könnyebben észrevehető a mélyhamisítás jelei. Ha valaki közvetlenül egy stúdió minőségű mikrofonba beszél, akkor közelről hallgathatja. De egy rossz minőségű telefonbeszélgetést vagy egy kézi eszközzel rögzített beszélgetést egy zajos parkolóházban sokkal nehezebb lesz értékelni.

A jó hír az, hogy még ha az embereknek nehézségei is vannak a valódi és a hamisítvány szétválasztásával, a számítógépekre nem vonatkoznak ugyanazok a korlátok. Szerencsére már léteznek hangellenőrző eszközök. A Pindrop rendelkezik olyannal, amely szembeállítja egymással a mélytanulási rendszereket. Mindkettőt használja annak kiderítésére, hogy egy hangminta az a személy, akinek lennie kellene. Ugyanakkor azt is megvizsgálja, hogy egy ember képes-e egyáltalán kiadni a mintában szereplő összes hangot.

A hang minőségétől függően a beszéd minden másodperce 8000-50 000 elemezhető adatmintát tartalmaz.

„Azok a dolgok, amelyeket általában keresünk, az emberi evolúció miatti beszédkorlátok” – magyarázta Balasubramaniyan.

Például két énekhang minimálisan elkülönül egymástól. Ennek az az oka, hogy fizikailag nem lehet gyorsabban kimondani őket, mivel a száj izmai és a hangszálak milyen sebességgel képesek újrakonfigurálni magukat.

„Amikor a szintetizált hangot nézzük – mondta Balasubramaniyan –, néha látunk dolgokat, és azt mondjuk: „ezt soha nem generálhatta volna ember, mert az egyetlen személynek, aki ezt tudta volna generálni, hét láb hosszú nyakkal kell rendelkeznie. ”

Létezik a hangzásnak egy „frikatív” nevű osztálya is. Akkor keletkeznek, amikor a levegő áthalad egy szűk szűkületen a torokban, amikor olyan betűket ejtesz ki, mint az f, s, v és z. A frikatívumot különösen nehéz elsajátítani a mélyen tanuló rendszerek számára, mert a szoftvernek gondot okoz a zajtól való megkülönböztetésük.

Tehát legalábbis egyelőre a hangklónozó szoftvereket megbotránkoztatja az a tény, hogy az emberek húsos zacskók, amelyek levegőt áramoltatnak át a lyukakon.