Az együttes tanulás a lehető legegyszerűbb kifejezésekkel magyarázva

Az együttes tanulás segíthet jobb döntések meghozatalában és számos valós kihívás megoldásában több modellből származó döntések kombinálásával.

A gépi tanulás (ML) továbbra is kiterjeszti szárnyait számos szektorban és iparágban, legyen szó pénzügyről, orvostudományról, alkalmazásfejlesztésről vagy biztonságról.

Az ML modellek megfelelő betanítása elősegíti, hogy nagyobb sikereket érjen el üzleti vagy munkakörében, és ennek elérésére többféle módszer létezik.

Ebben a cikkben az együttes tanulásról, annak fontosságáról, felhasználási eseteiről és technikáiról fogok beszélni.

Maradjon velünk!

Mi az az együttes tanulás?

A gépi tanulásban és a statisztikában az „ensemble” olyan módszereket jelent, amelyek különféle hipotéziseket generálnak, miközben közös alaptanulót használnak.

Az ensemble learning pedig egy olyan gépi tanulási megközelítés, amelyben több modellt (például szakértőket vagy osztályozókat) stratégiailag hoznak létre és kombinálnak egy számítási probléma megoldása vagy jobb előrejelzések elkészítése céljából.

Ez a megközelítés igyekszik javítani egy adott modell előrejelzését, függvényközelítését, osztályozását stb. Arra is használják, hogy kiküszöböljék annak lehetőségét, hogy rossz vagy kevésbé értékes modellt válassz a sok közül. A jobb prediktív teljesítmény elérése érdekében többféle tanulási algoritmust használnak.

Az Ensemble Learning jelentősége az ML-ben

A gépi tanulási modellekben vannak olyan források, mint például a torzítás, az eltérés és a zaj, amelyek hibákat okozhatnak. Az együttes tanulás segíthet csökkenteni ezeket a hibákat okozó forrásokat, és biztosítja az ML algoritmusok stabilitását és pontosságát.

Íme, miért használják az együttes tanulást különböző forgatókönyvekben:

A megfelelő osztályozó kiválasztása

Az együttes tanulás segít jobb modell vagy osztályozó kiválasztásában, miközben csökkenti a rossz modellválasztásból eredő kockázatot.

Különböző problémákhoz különböző típusú osztályozókat használnak, például támogató vektorgépeket (SVM), többrétegű perceptronokat (MLP), naiv Bayes-osztályozókat, döntési fákat stb. Ezen túlmenően az osztályozási algoritmusoknak különböző megvalósításai vannak, amelyeket választania kell. . A különböző edzési adatok teljesítménye is eltérő lehet.

De ahelyett, hogy csak egy modellt választana ki, ha ezen modellek együttesét használja, és egyesíti az egyes kimeneteiket, elkerülheti a gyengébb modellek kiválasztását.

Adatmennyiség

Sok ML módszer és modell nem olyan hatékony az eredményekben, ha nem megfelelő adatokat vagy nagy mennyiségű adatot táplál be.

Másrészt az együttes tanulás mindkét forgatókönyvben működhet, még akkor is, ha az adatmennyiség túl kevés vagy túl sok.

  • Ha nem állnak rendelkezésre megfelelő adatok, akkor a bootstrapping segítségével különféle osztályozókat taníthat különböző bootstrap adatminták segítségével.
  • Ha nagy adatmennyiség van, amely kihívást jelenthet egyetlen osztályozó betanítása, akkor stratégiailag feloszthatja az adatokat kisebb részhalmazokra.

Bonyolultság

Előfordulhat, hogy egyetlen osztályozó nem képes megoldani néhány rendkívül összetett problémát. A különböző osztályok adatait elválasztó döntési határaik rendkívül összetettek lehetnek. Tehát, ha egy lineáris osztályozót alkalmaz egy nemlineáris, összetett határvonalra, akkor az nem fogja tudni megtanulni.

  Javítás Nem lehet letölteni a Microsoft Store-ból

A megfelelő lineáris osztályozók együttesének megfelelő kombinálásával azonban megtanulhatja az adott nemlineáris határt. Az osztályozó sok könnyen megtanulható és kisebb partícióra osztja fel az adatokat, és minden osztályozó csak egy egyszerűbb partíciót tanul meg. Ezt követően különböző osztályozókat kombinálva egy kb. döntési határ.

Bizalombecslés

Az együttes tanulás során egy rendszer által meghozott döntéshez bizalmi szavazást rendelnek. Tegyük fel, hogy egy adott problémára kiképzett különféle osztályozók együttese van. Ha az osztályozók többsége egyetért a meghozott döntéssel, akkor annak végeredménye egy nagy megbízhatóságú döntés együttesének tekinthető.

Másrészt, ha az osztályozók fele nem ért egyet a meghozott döntéssel, akkor azt mondják, hogy alacsony bizalommal rendelkező együttesről van szó.

Az alacsony vagy magas bizalom azonban nem mindig a helyes döntés. De nagy esély van arra, hogy egy nagy magabiztos döntés helyes legyen, ha az együttes megfelelően képzett.

Pontosság a Data Fusion segítségével

A több forrásból gyűjtött adatok, ha stratégiailag kombinálják, javíthatják az osztályozási döntések pontosságát. Ez a pontosság nagyobb, mint az egyetlen adatforrás segítségével készítetté.

Hogyan működik az együttes tanulás?

Az együttes tanulás több leképezési függvényt használ, amelyeket a különböző osztályozók megtanultak, majd egyesíti őket egyetlen leképezési függvény létrehozására.

Íme egy példa az együttes tanulás működésére.

Példa: Élelmiszer-alapú alkalmazást hoz létre a végfelhasználók számára. A jó minőségű felhasználói élmény biztosítása érdekében össze szeretné gyűjteni a visszajelzéseiket az általuk tapasztalt problémákról, a szembetűnő kiskapukról, hibákról, hibákról stb.

Ehhez kikérheti családja, barátai, munkatársai és más olyan személyek véleményét, akikkel gyakran kommunikál az ételválasztásukkal és az online ételrendeléssel kapcsolatos tapasztalataikkal kapcsolatban. Alkalmazását bétaverzióban is kiadhatja, hogy valós idejű visszajelzést gyűjthessen torzítás vagy zaj nélkül.

Tehát, amit valójában csinálsz, az az, hogy figyelembe veszed a különböző emberektől származó ötleteket és véleményeket a felhasználói élmény javítása érdekében.

Az együttes tanulás és modelljei hasonló módon működnek. Egy sor modellt használ, és ezeket kombinálja, hogy végső kimenetet állítson elő az előrejelzés pontosságának és teljesítményének javítása érdekében.

Alapvető együttes tanulási technikák

#1. Mód

A „mode” egy adatkészletben megjelenő érték. Az együttes tanulás során az ML szakemberek több modellt használnak, hogy minden adatponttal kapcsolatos előrejelzéseket hozzanak létre. Ezeket a jóslatokat egyéni szavazatoknak tekintik, és a legtöbb modell által készített előrejelzést tekintik végső előrejelzésnek. Leginkább osztályozási problémák esetén használják.

Példa: Négyen 4-re, míg egyikük 3-ra értékelte az alkalmazását, akkor a mód 4 lesz, mivel a többség 4-re szavazott.

#2. Átlag/átlag

Ezzel a technikával a szakemberek figyelembe veszik a modell összes előrejelzését, és kiszámítják azok átlagát, hogy elkészítsék a végső előrejelzést. Leginkább regressziós problémák előrejelzésére, osztályozási problémák valószínűségeinek kiszámítására és egyebekre használják.

Példa: A fenti példában, ahol négyen 4-re, míg egy személy 3-ra értékelte az alkalmazást, az átlag (4+4+4+4+3)/5=3,8

#3. Súlyozott átlag

Ebben az együttes tanulási módszerben a szakemberek különböző súlyokat rendelnek a különböző modellekhez az előrejelzés elkészítéséhez. Itt a hozzárendelt súly leírja az egyes modellek relevanciáját.

Példa: Tegyük fel, hogy 5 személy adott visszajelzést a jelentkezésével kapcsolatban. Közülük 3 alkalmazásfejlesztő, 2 pedig semmilyen alkalmazásfejlesztési tapasztalattal nem rendelkezik. Tehát ennek a 3 embernek a visszajelzése nagyobb súlyt kap, mint a többi 2 ember visszajelzése.

  Javítás: Nem lehetséges a másolás és beillesztés a távoli asztali munkamenetbe

Haladó együttes tanulási technikák

#1. Zsákolás

A zsákolás (Bootstrap AGGregatING) egy rendkívül intuitív és egyszerű együttes tanulási technika, jó teljesítménnyel. Ahogy a neve is sugallja, a „Bootstrap” és az „aggregation” kifejezések kombinálásával készült.

A Bootstrapping egy másik mintavételi módszer, ahol több megfigyelés részhalmazait kell létrehoznia, amelyek egy eredeti adatkészletből származnak, cserével. Itt a részhalmaz mérete megegyezik az eredeti adatkészlet méretével.

Forrás: Buggy programmer

Tehát a zsákolásnál részhalmazokat vagy tasakokat használnak a teljes készlet eloszlásának megértéséhez. A részhalmazok azonban kisebbek lehetnek, mint az eredeti zsákolási adatkészlet. Ez a módszer egyetlen ML algoritmust tartalmaz. A különböző modellek eredményeinek kombinálásának célja egy általánosított eredmény elérése.

Így működik a zsákolás:

  • Az eredeti halmazból több részhalmazt generálnak, és a megfigyeléseket cserékkel választják ki. Az alhalmazokat modellek vagy döntési fák betanítására használják.
  • Minden részhalmazhoz létrejön egy gyenge vagy alapmodell. A modellek függetlenek lesznek egymástól és párhuzamosan futnak.
  • A végső előrejelzés az egyes modellekből származó előrejelzések kombinálásával történik olyan statisztikákkal, mint az átlagolás, a szavazás stb.

Az ebben az együttes technikában használt népszerű algoritmusok a következők:

  • Véletlen erdő
  • Zsákos döntési fák

Ennek a módszernek az az előnye, hogy segít a minimálisra csökkenteni a varianciahibákat a döntési fákban.

#2. Halmozás

Kép forrása: OpenGenus IQ

A halmozásban vagy a halmozott általánosításban a különböző modellekből származó előrejelzések, például egy döntési fa, egy új modell létrehozására szolgálnak, amely előrejelzéseket készít ezen a tesztkészleten.

A halmozás magában foglalja a betanítási modellekhez rendszerindító adathalmazok létrehozását, hasonlóan a zsákoláshoz. De itt a modellek kimenetét bemenetként veszik fel egy másik osztályozóba, amely metaosztályozóként ismert a minták végső előrejelzéséhez.

A két osztályozó réteg használatának oka annak meghatározása, hogy a betanítási adatkészletek megtanulása megfelelő-e. Bár a kétrétegű megközelítés elterjedt, több réteg is használható.

Használhat például 3-5 modellt az első rétegben vagy 1. szinten, és egyetlen modellt a 2. vagy 2. szinten. Az utóbbi egyesíti az 1. szinten kapott előrejelzéseket a végső előrejelzés elkészítéséhez.

Ezenkívül bármilyen ML tanulási modellt használhat az előrejelzések összesítésére; gyakoriak az olyan lineáris modellek, mint a lineáris regresszió, a logisztikus regresszió stb.

A halmozás során használt népszerű ML algoritmusok a következők:

  • Keverés
  • Szuper együttes
  • Halmozott modellek

Megjegyzés: A keverés a betanítási adatkészletből származó érvényesítési vagy visszatartási készletet használ az előrejelzések készítéséhez. Ellentétben a halmozással, a keverés magában foglalja az előrejelzéseket, amelyeket csak a holdout alapján kell készíteni.

#3. Fellendítés

A boosting egy iteratív ensemble learning módszer, amely egy adott megfigyelés súlyát állítja be a legutóbbi vagy előző osztályozástól függően. Ez azt jelenti, hogy minden további modell az előző modellben talált hibák kijavítását célozza.

Ha a megfigyelés nincs megfelelően besorolva, akkor a feljavítás növeli a megfigyelés súlyát.

A feljavítás során a szakemberek betanítják az első algoritmust a teljes adatkészlet növelésére. Ezután felépítik a következő ML-algoritmusokat az előző növelő algoritmusból kinyert maradékok felhasználásával. Így nagyobb súlyt kapnak az előző modell által megjósolt helytelen megfigyelések.

Lépésenként a következőképpen működik:

  • Az eredeti adatkészletből egy részhalmaz jön létre. Kezdetben minden adatpontnak azonos súlya lesz.
  • Az alapmodell létrehozása az alhalmazon történik.
  • Az előrejelzés a teljes adatkészleten történik.
  • A tényleges és előrejelzett értékek felhasználásával a hibák kiszámításra kerülnek.
  • A helytelenül előre jelzett megfigyelések nagyobb súlyt kapnak
  • Egy új modell készül és ezen az adatsoron készül el a végső előrejelzés, miközben a modell megpróbálja kijavítani a korábban elkövetett hibákat. Több modell is létrejön hasonló módon, mindegyik javítja a korábbi hibákat
  • A végső előrejelzés a végső modellből készül, amely az összes modell súlyozott átlaga.
  Lejátszási listák készítése a TikTokon

A népszerű boosting algoritmusok a következők:

  • CatBoost
  • Könnyű GBM
  • AdaBoost

Az erősítés előnye, hogy kiváló előrejelzéseket generál, és csökkenti a torzításból eredő hibákat.

Egyéb együttes technikák

Szakértők keveréke: több osztályozó betanítására szolgál, és kimeneteik egy általános lineáris szabályt tartalmaznak. Itt a kombinációknak adott súlyokat egy edzhető modell határozza meg.

Többségi szavazás: páratlan osztályozó kiválasztását jelenti, és minden mintára kiszámítják az előrejelzéseket. Az osztályozó csoportból a maximális osztályt kapó osztály lesz az együttes előrejelzett osztálya. Olyan problémák megoldására használják, mint a bináris osztályozás.

Max. szabály: az egyes osztályozók valószínűségi eloszlását használja, és magabiztosságot alkalmaz az előrejelzések készítésekor. Többosztályos osztályozási problémákhoz használják.

Az együttes tanulás valós használati esetei

#1. Arc- és érzelemfelismerés

Az együttes tanulás olyan technikákat használ, mint a független komponenselemzés (ICA) az arcfelismerés végrehajtásához.

Ezenkívül az együttes tanulást egy személy érzelmeinek beszédérzékeléssel történő kimutatására használják. Ezenkívül képességei segítenek a felhasználóknak az arc érzelmeinek észlelésében.

#2. Biztonság

Csalásfelderítés: Az együttes tanulás segít a normál viselkedésmodellezés hatékonyságának növelésében. Ezért tartják hatékonynak a csalárd tevékenységek felderítésében, például hitelkártya- és bankrendszerekben, távközlési csalások, pénzmosás stb.

DDoS: Az elosztott szolgáltatásmegtagadás (DDoS) halálos támadás az internetszolgáltatók ellen. Az együttes osztályozók csökkenthetik a hibaészlelést, és megkülönböztethetik a támadásokat a valódi forgalomtól.

Behatolásészlelés: Az együttes tanulás olyan megfigyelő rendszerekben használható, mint a behatolásérzékelő eszközök a behatoló kódok észlelésére a hálózatok vagy rendszerek figyelésével, anomáliák feltárásával stb.

Rosszindulatú programok észlelése: Az együttes tanulás meglehetősen hatékony a rosszindulatú programkódok, például számítógépes vírusok és férgek, zsarolóvírusok, trójai programok, kémprogramok stb. észlelésében és osztályozásában gépi tanulási technikák segítségével.

#3. Inkrementális tanulás

A növekményes tanulás során az ML algoritmus egy új adatkészletből tanul, miközben megtartja a korábbi tanulásokat, de anélkül, hogy hozzáférne a korábban látott adatokhoz. Az ensemble rendszereket a növekményes tanulásban használják azáltal, hogy minden adatkészlethez hozzáadott osztályozót tanulnak meg, amint az elérhetővé válik.

#4. Gyógyszer

Az együttes osztályozók hasznosak az orvosi diagnosztika területén, például a neurokognitív rendellenességek (például az Alzheimer-kór) kimutatásában. A kimutatást az MRI adatkészletek bemenetként történő felhasználásával és a méhnyak citológiájának osztályozásával végzi. Ezen kívül a proteomikában (fehérjék tanulmányozása), az idegtudományban és más területeken alkalmazzák.

#5. Távérzékelés

Változásészlelés: Az együttes osztályozók a változások észlelésére szolgálnak olyan módszerekkel, mint a Bayes-féle átlag és a többségi szavazás.

Földborítás feltérképezése: Az együttes tanulási módszereket, mint például az erősítés, a döntési fák, a kernel főkomponens-elemzése (KPCA) stb. használják a talajborítás hatékony észlelésére és feltérképezésére.

#6. Pénzügy

A pontosság a pénzügyek kritikus szempontja, legyen szó számításról vagy előrejelzésről. Ez nagymértékben befolyásolja a meghozott döntések kimenetét. Ezek elemezhetik a tőzsdei adatok változásait, észlelhetik a részvényárfolyamok manipulációját és így tovább.

További tanulási források

#1. Ensemble Methods for Machine Learning

Ez a könyv segít megtanulni és megvalósítani az együttes tanulás fontos módszereit a semmiből.

#2. Együttes módszerek: alapok és algoritmusok

Ez a könyv az ensemble learning alapjait és algoritmusait tartalmazza. Azt is felvázolja, hogyan használják a való világban.

#3. Együttes tanulás

Bevezetést kínál egy egységes ensemble módszerbe, kihívásokba, alkalmazásokba stb.

#4. Együttes gépi tanulás: Módszerek és alkalmazások:

Széles körű lefedettséget biztosít a fejlett együttes tanulási technikákról.

Következtetés

Remélem, most már van valami ötleted az ensemble learningről, annak módszereiről, használati eseteiről, és arról, hogy miért lehet a használata előnyös az Ön használati esetére. Számos valós kihívás megoldására képes, a biztonságtól és az alkalmazásfejlesztéstől a pénzügyekig, az orvostudományig és még sok másig. Felhasználási területei egyre bővülnek, így a közeljövőben valószínűleg további fejlesztések várhatók ebben a koncepcióban.

Felfedezhet néhány szintetikus adatgenerálási eszközt is a gépi tanulási modellek betanításához