Mik azok a mélyhamisítványok, és hogyan kell létrehozni őket?

Az Ön egyablakos magyarázója a Deepfakes-ről, és egyszerűen elkészítheti őket a Faceswap segítségével.

A mesterséges intelligencia már nem olyan „mesterséges”. Ezek az idők veszélyesen közel tették hozzánk, emberekhez.

Tud javasolni, írni, művészetet alkotni, és most úgy néz ki és beszél, mint az élők.

Ez az egyik legfrissebb fejlesztés ezen a területen, amelyet ki kell használnunk. Azonban ez is az, amitől óvakodnunk kell.

Tartalomjegyzék

Mik azok a mélyhamisítások?

A Deepfake szó a mély tanulás és a hamisítás ötvözésével jött létre. Egyszerűen fogalmazva, azt is feltételezheti, hogy ez egy szakszerűen manipulált vagy mélyen meghamisított média.

A Wikipédia szerint ezt szintetikus médiának is nevezik, amelyben egy meglévő képet, hangot vagy videót úgy módosítanak, hogy valaki mást képviseljen.

A mélyhamisítások általában azt a látszatot keltik, hogy a neves személyiségek olyasmit mondanak, amit egyébként nem tennének.

Az alkotó képességei alapján rendkívül nehéz lehet eldönteni, hogy valódi-e vagy hamis.

Hogyan működnek a Deepfakes?

Egyszerűen fogalmazva, az eredeti videó egy részét (mondjuk egy arcot) egy hasonló kinézetű hamisítvány helyettesíti. Ilyenkor ezt faceswap-nak is nevezhetjük, mint ebben az ‘Obama’ videóban.

Ez azonban nem korlátozódik csak a videóra, és vannak mélyhamisított képeink és hangjaink is (és ki tudja, a közeljövőben mélyhamisított VR-avatarok is).

Forrás: Disney

Az ilyen trükkök mögött meghúzódó munkamódszer elsősorban az alkalmazástól és a mögöttes algoritmustól függ.

A Disney jelen tanulmánya szerint különféle technikák léteznek, beleértve a kódoló-dekódolókat, a generatív ellenséges hálózatokat (GAN), a geometria alapú mélyhamisításokat stb.

A következő szakaszokat azonban nagyban befolyásolja a Facewap működése. Ez egy ingyenes és nyílt forráskódú Deepfake szoftver, amely lehetővé teszi több algoritmus használatát a várt eredmény eléréséhez.

Három fő folyamat létezik a mélyhamisítások generálására: kinyerés, betanítás és átalakítás.

#1. Kitermelés

Ez arról szól, hogy észleljük és kinyomjuk az érdeklődési kört a médiamintákból, az eredetiből és a cserelehetőségből.

A hardver képességei alapján számos algoritmus választhatja a hatékony észlelést.

Például a Faceswap néhány különböző lehetőséget kínál a kivonásra, igazításra és maszkolásra a CPU vagy a GPU hatékonysága alapján.

A kivonás egyszerűen azonosítja az arcot a teljes videóban. A beigazítás minden arcon (szem, orr, áll stb.) döntő fontosságú vonásait jelzi. És végül, a maszkolás blokkolja a kép egyéb elemeit, kivéve az érdeklődési területet.

A kimenethez szükséges teljes idő fontos bármely opció kiválasztásánál, mivel az erőforrás-igényes algoritmusok közepes hardveren történő kiválasztása meghibásodást vagy lényegesen hosszú ideig tartó elfogadható eredményeket eredményezhet.

A hardveren kívül a választás az olyan paraméterektől is függ, mint hogy a bemeneti videó szenved-e az arc akadályozásától, például kézmozdulatoktól vagy szemüvegtől.

Végső soron a kimenet megtisztítása (kifejtve később) egy szükséges elem, mivel az extrakcióknál lesz néhány téves pozitív eredmény.

Végül a kivonat megismétlődik az eredeti videónál és a hamisítványnál (amelyet cserére használnak).

#2. Kiképzés

Ez a mélyhamisítások létrehozásának szíve.

A képzés a neurális hálózatról szól, amely a kódolóból és a dekódolóból áll. Itt az algoritmusok betáplálják a kinyert adatokat, hogy később modellt hozzanak létre a konverzióhoz.

A kódoló a bemenetet vektoros ábrázolássá alakítja, hogy megtanítsa az algoritmust az arcok vektorokból való újrateremtésére, ahogyan azt a dekóder végzi.

Az AT&T üzenetek biztonsági mentésének és szinkronizálásának kikapcsolása

Ezt követően a neurális hálózat kiértékeli iterációit, és veszteségpontszám megadásával összehasonlítja azokat az eredetivel. Ez a veszteségérték idővel csökken, ahogy az algoritmus folyamatosan iterál, és leáll, ha az előnézetek elfogadhatóak.

A képzés időigényes folyamat, és a kimenetek általában javulnak az általa végrehajtott iterációk és a bemeneti adatok minősége alapján.

Például a Faceawap egyenként legalább 500 képet javasol, eredeti és csere céljából. Ezenkívül a képeknek jelentősen különbözniük kell egymástól, minden lehetséges szöget lefedve egyedi megvilágításban a legjobb kikapcsolódás érdekében.

Az edzés hosszától függően egyes alkalmazások (például a Faceswap) lehetővé teszik az edzés félidejében történő leállítását vagy későbbi folytatását.

Nevezetesen, hogy a kimenet fotorealizmusa az algoritmus hatékonyságától és a bemenettől is függ. És az egyiket ismét korlátozzák a hardver képességei.

#3. Átalakítás

Ez az utolsó fejezet a deepfake kreációban. A konverziós algoritmusokhoz szükség van a forrásvideóra, a betanított modellre és a forrásigazítási fájlra.

Ezt követően néhány beállítás módosítható a színkorrekcióval, a maszk típusával, a kívánt kimeneti formátummal stb. kapcsolatban.

E néhány beállítás konfigurálása után már csak várni kell a végső renderelésre.

Mint már említettük, a Faceswap számos algoritmussal működik, és ezek között lehet játszani, hogy elfogadható arccserét kapjunk.

Ez minden?

Nem!

Ez csak arccsere volt, a deepfake technológia egy részhalmaza. Az arccsere, akárcsak a szó szerinti jelentés, csak az arc egy részét helyettesíti, hogy halvány képet adjon arról, mire képesek a mélyhamisítások.

A hiteles csere érdekében előfordulhat, hogy utánoznia kell a hangot (ismertebb nevén hangklónozás) és a teljes testalkatot, beleértve mindent, ami belefér a keretbe, például:

Szóval, mi folyik itt?

Az történhetett, hogy a mélyhamis szerző maga forgatta a videót (ahogyan az utolsó másodpercekben jeleztük), a párbeszédet Morgan Freeman szintetikus hangjával szinkronizálta, és lecserélte a fejét.

Végső soron nem csak az arccseréről van szó, hanem a teljes képkockáról, beleértve a hangot is.

Rengeteg mélyhamisítványt találhatsz a YouTube-on, egészen addig a pontig, amikor már ijesztővé válik, hogy miben bízz. És nem kell más, mint egy nagy teljesítményű számítógép hatékony grafikus kártyával.

A tökéletességet azonban nehéz elérni, és ez különösen igaz a mélyhamisításokra.

Egy meggyőző mélyhamisításhoz, amely félrevezetheti vagy elkápráztathatja a közönséget, ügyességre és néhány naptól hetekig tartó feldolgozásra van szükség egy-két perces videóhoz.

Érdekes módon ezek az algoritmusok jelenleg ennyire képesek. De hogy mit hoz a jövő, beleértve azt is, hogy ezek az alkalmazások mennyire lehetnek hatékonyak az alsó kategóriás hardvereken, az egész kormányokat idegesített.

Azonban nem merülünk bele a jövőbeli következményeibe. Ehelyett nézzük meg, hogyan csináld magad a kis móka kedvéért.

(Alap) Deephamis videók létrehozása

Számos alkalmazást ellenőrizhet a mélyhamisítású alkalmazások listájában a mémek készítéséhez.

Az egyik a Faceswap, amelyet használni fogunk.

Van néhány dolog, amit meg kell győződnünk a folytatás előtt. Először is jó minőségű videót kell készítenünk a célpontról, amely különböző érzelmeket ábrázol. Ezután szükségünk lesz egy forrásvideóra, hogy a célpontra cseréljük.

Ezenkívül zárjon be minden grafikus kártyát igénylő alkalmazást, például böngészőket vagy játékokat, mielőtt folytatná a Faceswap alkalmazást. Ez különösen igaz, ha kevesebb, mint 2 GB VRAM-mal (video RAM) rendelkezik.

1. lépés: Arcok eltávolítása

A folyamat első lépése az arcok kinyerése a videóból. Ehhez ki kell választanunk a célvideót az Input Dir-ben, és listáznunk kell egy Output Dir-t a kivonatokhoz.

Ezen kívül van néhány lehetőség, köztük detektor, igazító, maszkoló stb.; mindegyik magyarázata a Faceawap GYIK-ban található, és kár lenne újra felvenni az információkat.

Hogyan lehet felnagyítani egy fénykép egy részét iPhone-on és iPaden

Forrás: Faceswap GYIK

Általában jó áttekinteni a dokumentációt a jobb megértés és a megfelelő eredmény érdekében. A Faceswapban azonban vannak hasznos szövegek, amelyeket úgy találhat meg, hogy az egérmutatót az adott opció fölé viszi.

Egyszerűen fogalmazva, nincs univerzális módszer, és a legjobb algoritmusokkal kell kezdeni, és sikeresen lefelé haladni, hogy meggyőző mélyhamisítást hozzon létre.

Kontextusként az Mtcnn-t (detektor), a ventilátort (igazító) és a Bisenet-Fp-t (maszkoló) használtam, miközben az összes többi opciót a jelenlegi állapotában megtartottam.

Eredetileg S3Fd-vel (legjobb detektor) és néhány másik maszkkal együtt próbáltam. A 2 Gb-os Nvidia GeForce GTX 750Ti azonban nem bírta a nehezet, és a folyamat többször is meghiúsult.

Végül enyhítettem az elvárásaimat és a beállításokat, hogy átlássam.

A megfelelő detektor, maszkolók stb. kiválasztásán kívül van még néhány lehetőség a Beállítások > Beállítások konfigurálása menüpontban, amelyek segítenek az egyes beállítások további módosításában a hardver támogatása érdekében.

Egyszerűen fogalmazva, válassza ki a lehető legalacsonyabb Batch-Size-t, Input Size-t és Output Size-t, és jelölje be a LowMem-et stb. Ezek a beállítások nem érhetők el univerzálisan, és egy adott szakaszon alapulnak. Ezenkívül a súgószövegek további segítséget nyújtanak a legjobb lehetőségek kiválasztásában.

Bár ez az eszköz kiváló munkát végez az arcok kinyerésében, a kimeneti keretek sokkal többet tartalmazhatnak, mint amennyi szükséges a modell betanításához (később lesz szó). Például az összes arcot tartalmazza (ha a videónak több is van), és néhány helytelen észlelés esetén egyáltalán nem szerepel a célarc.

Ez az adatkészletek tisztításához vezet. Ellenőrizheti a kimeneti mappát és törölheti magát, vagy használhatja a Faceswap rendezést, hogy segítséget kapjon.

A fent említett eszköz segítségével sorba rendezheti a különböző arcokat, ahonnan a szükségeseket egyetlen mappába helyezheti, a többit pedig törölheti.

Emlékeztetőül meg kell ismételnie a kivonatolást a forrásból származó videó esetében is.

2. lépés: A modell betanítása

Ez a leghosszabb folyamat a mélyhamisítás létrehozásában. Itt az A bemenet a céllapra, a B bemenet pedig a forrásfelületre vonatkozik. Emellett a Model Dir az a hely, ahol a képzési fájlok mentésre kerülnek.

Itt a legjelentősebb lehetőség a Trainer. Rengeteg egyedi méretezési lehetőség van; azonban ami a hardveremnél bevált, az a Dfl-H128 és a Lightweight edzőcipő a legalacsonyabb konfigurációs beállításokkal.

A következő a tétel mérete. A nagyobb kötegméret csökkenti a teljes képzési időt, de több VRAM-ot fogyaszt. Az iterációknak nincs fix hatása a kimenetre, és kellően magas értéket kell beállítania, és le kell állítania a képzést, ha az előnézetek elfogadhatóak.

Van még néhány beállítás, köztük egy timelapse létrehozása előre beállított időközökkel; a modellt azonban a minimummal betanítottam.

3. lépés: Váltás az eredetire

Ez az utolsó bravúr a deepfake kreációban.

Ez általában nem vesz igénybe sok időt, és számos lehetőséggel játszhat, hogy gyorsan elérje a kívánt kimenetet.

Amint a fenti képen látható, ez néhány lehetőség, amelyet választania kell az átalakítás megkezdéséhez.

A legtöbb opciót már tárgyaltuk, mint például a bemeneti és kimeneti könyvtárat, a modellkönyvtárat stb. Az egyik kulcsfontosságú dolog az igazítások, amelyek a célvideó igazítási fájljára (.fsa) hivatkoznak. A kinyerés során az Input Directoryban jön létre.

Az Igazítások mező üresen hagyható, ha az adott fájl nem került áthelyezésre. Ellenkező esetben kiválaszthatja a fájlt, és továbbléphet más lehetőségekre. Azonban ne felejtse el megtisztítani az igazítási fájlt, ha korábban megtisztította a kivonatokat.

A végső védelem: mi az a légrés számítógép?

Ehhez ez a mini eszköz az Eszközök > Igazítások menüpontban található.

Kezdje azzal, hogy a Feladat részben válassza ki az Arcok eltávolítása elemet, válassza ki az eredeti igazítási fájlt és a megtisztított célfelületek mappát, majd kattintson az Igazítások elemre a jobb alsó sarokban.

Ezzel létrehoz egy módosított igazítási fájlt, amely megfelel az optimalizált arcok mappának. Kérjük, ne feledje, ez kell a célvideóhoz, amelyre szeretnénk cserélni.

Néhány további konfiguráció tartalmazza a színbeállítást és a maszk típusát. A színbeállítás határozza meg a maszk keverését, és kipróbálhat néhányat, ellenőrizze az előnézetet, és válassza ki az optimális lehetőséget.

A maszk típusa fontosabb. Ez ismét az Ön elvárásaitól és a rendelkezésre álló hardvertől függ. Általában figyelembe kell vennie a bemeneti videó jellemzőit is. Például a Vgg-Clear jól működik elülső arcokkal, akadályok nélkül, míg a Vgg-Obstructed olyan akadályokkal is megbirkózik, mint a kézmozdulatok, szemüvegek stb.

Ezután a Writer bemutat néhány választási lehetőséget a kívánt kimenet alapján. Például az Ffmpeg elemet válassza a videó rendereléséhez.

Összességében a sikeres mélyhamisítás kulcsa néhány kimenet előnézete, valamint a rendelkezésre álló idő és a hardver teljesítménye szerinti optimalizálás.

A Deepfake alkalmazásai

A mélyhamisításoknak vannak jó, rossz és veszélyes alkalmazásai.

A jók abból állnak, hogy újrateremtik a történelemórákat azok által, amelyek valóban ott voltak a nagyobb elkötelezettség érdekében.

Emellett az online tanulási platformok is használják őket arra, hogy szövegekből videókat állítsanak elő.

De az egyik legnagyobb haszonélvező a filmipar lesz. Itt könnyű lesz elképzelni a tényleges főszereplőt, aki mutatványokat hajt végre, még akkor is, ha a kaszkadőr az életét kockáztatja. Ezenkívül a többnyelvű filmek készítése egyszerűbb lesz, mint valaha.

A rosszaknál sajnos sok van. Az eddigi legnagyobb mélyhamisítási alkalmazás, ami azt illeti, 96% (a Deeptrace jelentés szerint), a pornóiparban található, hogy a hírességek arcát pornószínészekre cseréljék.

Ezenkívül a mélyhamisításokat a „szokásos” nem híres nők ellen is fegyverezték. Általában az ilyen áldozatok jó minőségű fényképeket vagy videókat tartalmaznak a közösségi média profiljaikon, amelyeket mélyhamisítások készítésére használnak.

Egy másik ijesztő alkalmazás a vishing, más néven hangalapú adathalászat. Az egyik ilyen esetben egy brit székhelyű cég vezérigazgatója 243 000 dollárt utalt át német anyavállalata „vezérigazgatójának” utasítására, hogy később kiderüljön, hogy valójában egy hamisított telefonhívásról van szó.

De ami még veszélyesebb, az a mélyhamisítás, amely háborúkat provokál, vagy feladást kér. A legutóbbi kísérlet során Volodimir Zelenszkij ukrán elnök azt mondta erőinek és népének, hogy adják meg magukat a folyamatban lévő háborúban. Az igazságot azonban ezúttal az alulmaradt videó adta meg.

Végeredményben sok mélyhamis alkalmazás létezik, és ez még csak most kezdődik.

Ezzel el is érkeztünk a millió dolláros kérdéshez…

Legális a Deepfakes?

Ez nagyban függ a helyi közigazgatástól. Jóllehet, a jól meghatározott törvények, beleértve azt is, hogy mit szabad és mit nem, még várni kell.

Mégis, ami nyilvánvaló, az attól függ, hogy mire használod a mélyhamisításokat – a szándéktól. Aligha árt, ha valakit szórakoztatni vagy oktatni kíván anélkül, hogy felborítaná a cserecélt.

Másrészt a rosszindulatú alkalmazásoknak a joghatóságtól függetlenül a törvény által büntetendőnek kell lenniük. Egy másik szürke terület a szerzői jogok megsértése, amelyet megfelelően figyelembe kell venni.

De hogy megismételjük, kérdezze meg a helyi önkormányzati szerveket a legális mélyhamisítási alkalmazásokról.

Tartsa szemmel!

A Deepfkaes mesterséges intelligenciát használ, hogy bárkit mondjon.

Ne bízzon semmiben, amit az interneten lát, ez az első tanács, amit követnünk kell. Rengeteg téves információ van, és ezek hatékonysága csak növekszik.

És mivel csak könnyebb lesz létrehozni őket, itt az ideje, hogy megtanuljuk, hogyan lehet felismerni a mélyhamisításokat.