Tudsz tenni valamit ellene?

Kulcs elvitelek

  • A közösségi média platformok az adatvédelmi aggályok ellenére felhasználói adatokat adnak el mesterséges intelligencia-cégeknek generatív mesterséges intelligencia modellek képzése céljából.
  • Az olyan platformok, mint a Meta, a Reddit, a Tumblr és a WordPress.com, aktívan részt vesznek ezekben az adatlicencelési ügyletekben az AI-képzéshez.
  • A felhasználók megtehetnek néhány apró lépést adataik védelme érdekében, például módosíthatják az adatvédelmi beállításokat, leiratkozhatnak a megosztásról, és óvatosnak kell lenniük az online közzététellel kapcsolatban.

Az egyik legújabb módja annak, hogy a közösségi média cégek a felhasználói adatokból pénzt szerezzenek, az AI-cégekkel kötött megállapodások révén. De tehetnek-e valamit a hétköznapi felhasználók adataik és tartalmaik védelme érdekében?

A közösségi média adatok generatív mesterséges intelligencia modellek betanítására való felhasználása ellentmondásos lépés volt – de úgy tűnik, ez nem akadályozza meg a közösségi média cégeket abban, hogy felhasználói adatokat osszák ki.

A Meta már használja a közösségi média adatait a Meta Connect 2023-ban bejelentett generatív mesterségesintelligencia-funkcióinak betanításához. Ide tartozik a Meta AI és olyan funkciók, mint a mesterséges intelligencia által generált matricák létrehozása a WhatsApp-on.

Ahogy Mike Clark, a Meta termékmenedzsment igazgatója kijelentette a Meta Newsroom bejegyzés:

„Az Instagramról és a Facebookról nyilvánosan megosztott bejegyzések – beleértve a fényképeket és a szöveget is – részei voltak azoknak az adatoknak, amelyeket a Connectnél bejelentett funkciók alapjául szolgáló generatív AI modellek betanításához használtak.”

Ez a tendencia 2024-ben nem látszik lassulni Reutersa Reddit megállapodást kötött a Google-lel, hogy a közösségi média platform tartalmát elérhetővé tegyék az AI modellek képzéséhez.

A Reddit S-1 bejelentése a 2024. február 22-én benyújtott IPO-ja megerősíti, hogy a vállalat vizsgálja az engedélyezési ügyleteket. A bejelentésben az áll:

„A Reddit adatok a jelenlegi mesterséges intelligencia technológia és számos LLM felépítésének alapvető elemei. Hiszünk abban, hogy a Reddit hatalmas társalgási adatok és tudásanyaga továbbra is szerepet fog játszani az LLM-ek képzésében és fejlesztésében.”

Megállapítja, hogy a Reddit „az LLM-ek képzése érdekében „a korai szakaszában jár annak, hogy harmadik feleknek engedélyezzék a hozzáférést a platformunkon található történelmi és valós idejű adatok kereséséhez, elemzéséhez és megjelenítéséhez.

És bár a Meta és a Reddit a közösségi média egyik legnagyobb neve, nem ők az egyetlen platformok, amelyek a közösségi média adatait használják fel az AI képzésére. szerint a A 404 Media jelentésea Tumblr és a WordPress.com arra készül, hogy eladja a felhasználói adatokat a Midjourney és az OpenAI számára.

Valószínű, hogy ha Facebookot, Instagramot, Reddit, Tumblr vagy WordPress.com oldalt használsz, akkor nyilvánosan elérhető tartalmadat már felhasználták az LLM-ek képzésében.

Például, ha használja a A Washington Post keresőeszköze Ha látni szeretné, hogy milyen webhelyek szerepeltek a Google C4 adatkészletében, amelyet Bard képzésének részeként használtak, látni fogja, hogy a Reddit.com 7,9 millió tokenhez tartozik.

A Tumblr.com 1,6 millió tokennel rendelkezik. Saját kis webhelyem, amely a WordPress.com-ot használja, 14 000 tokent tartalmazott – szóval kis személyes blogok is belekerülhettek az adatkészletbe.

A mesterséges intelligencia-cégek és a közösségi médiával foglalkozó cégek közötti folyamatban lévő ügyletekkel a licencügyletek azt jelentik, hogy ezeket az adatokat aktívan értékesítik, nem pedig egyszerűen lekaparják az internetről.

De ha a jövőbeni feldolgozásról van szó, mit tehetsz ellene? A Meta bemutatta a űrlap a generatív AI adatalany jogaihoz amely lehetővé teszi, hogy tiltakozzon vagy korlátozza személyes adatainak harmadik felektől való feldolgozását a Meta generatív mesterséges intelligencia modelljeinek betanítása érdekében.

Nevezetesen, ez az opció nem teszi lehetővé, hogy tiltakozzon az adatok Meta saját, belső feldolgozásával szemben a generatív AI betanítása céljából. Továbbá amikor benyújtottam egy jegyet, hogy tiltakozzam személyes adataim felhasználása ellen az űrlap segítségével, a támogatási jegyhez bizonyítanom kellett, hogy személyes adataim már megjelennek a Meta generatív mesterséges intelligencia eredményeiben.

A Tumblr bevezette azt a lehetőséget is, amellyel letilthatja nyilvános blogjai tartalmának harmadik felekkel való megosztását a blogbeállítások segítségével. A beállítások között találhatja meg, ha a blogjára kattint, és lefelé görget a Láthatósági beállításokhoz. Ezután válassza a harmadik fél általi megosztás megakadályozását blogjában.

Amikor egy olyan platformról van szó, mint az Instagram, megpróbálhatja Instagram-fiókját privátra állítani, hogy megakadályozza adatai felhasználását. Ez nem garantálja, hogy az adatait nem használják fel, de mivel úgy tűnik, hogy az LLM-ek adatlegyűjtése a nyilvános adatokra összpontosít, ez potenciális biztosíték lehet.

X (Twitter) fiókodat priváttá is teheted, de ez ismét csak egy lehetséges biztosíték, és nem garantálja, hogy adataid privátak maradnak.

A együttes nyilatkozat a különböző nemzeti információs biztosok és szakértők a világ minden tájáról néhány lépést javasoltak azoknak az egyéneknek, akik minimalizálni kívánják az AI-cégek adatlekopasztásának adatvédelmi kockázatát. A tanács a következőket tartalmazza:

  • Olvassa el egy webhely feltételeit és adatvédelmi szabályzatát, hogy megtudja, hogyan osztja meg az Ön személyes adatait.
  • Korlátozza az online közzétett információk számát, különösen az érzékeny információkat.
  • Kezelje adatvédelmi beállításait.
  • Gondoljon hosszú távon az online megosztott információkra.
  • Lépjen kapcsolatba a közösségi média céggel vagy weboldallal, ha úgy gondolja, hogy adatait helytelenül kaparták ki. Ha nem elégedett a válaszukkal, nyújtson be panaszt az illetékes adatvédelmi hatósághoz.

Bizonyos információkat az interneten is törölhet, ha nem elégedett azzal, hogy harmadik felek hozzáférhetnek hozzájuk, bár előfordulhat, hogy a profiljaiban nyilvánosan elérhető információkat már törölték.

Sajnos mi, rendszeres felhasználók csak annyit tehetünk, hogy megvédjük adatainkat az AI-cégekkel szemben. Ezen információk valódi ellenőrzése valószínűleg csak a szabályozók segítségével fog megvalósulni.