Íme, miért a kis nyelvi modellek jelentik a mesterséges intelligencia jövőjét

Főbb megállapítások

  • Nagy cégek, mint az Open AI, a Google, a Microsoft és a Meta, befektetnek a kis nyelvi modellekbe (SLM).
  • Az SLM-ek népszerűsége növekszik az iparban, és a jövő mesterséges intelligenciájának jobb helyzetben vannak.
  • SLM példák: Google Nano, Microsoft Phi-3 és Open AI GPT-4o mini.

A nagy nyelvi modellek (LLM) világában az Open AI ChatGPT megjelenésével az érdeklődés kezdett elterjedni. Azóta számos vállalat bemutatta saját LLM-jeit, de manapság több cég egyre inkább a kis nyelvi modellek (SLM) felé fordul.

Az SLM-ek egyre nagyobb teret nyernek, de mik is pontosan, és miben különböznek az LLM-ektől?

Mi az a kis nyelvi modell?

A kis nyelvi modell (SLM) egy mesterséges intelligencia modell, amely kevesebb paraméterrel rendelkezik (ezeket értékeknek tekinthetjük, amelyeket a modell az edzés során tanult meg). Az SLM-ek képesek szöveget generálni és más feladatokat végezni, de kevesebb adathalmazon tanulnak, kevesebb paraméterrel bírnak, és kevesebb számítási erőforrást igényelnek az edzéshez és a futtatáshoz.

Az SLM-ek a kulcsfunkciókra összpontosítanak, és kisméretük lehetővé teszi, hogy különböző eszközökön telepíthetők legyenek, beleértve azokat is, amelyek nem rendelkeznek csúcstechnikás hardverrel, mint például a mobil eszközök. Például a Google Nano egy olyan eszközön futó SLM, amelyet kifejezetten mobil eszközökre építettek. Kisméretének köszönhetően a Nano helyben fut, akár van hálózati kapcsolata, akár nincs, a vállalat szerint.

Google

A Nano mellett számos más SLM található a mesterséges intelligencia szektor vezető és feltörekvő cégei által. Néhány népszerű SLM például a Microsoft Phi-3, az OpenAI GPT-4o mini, az Anthropic Claude 3 Haiku, a Meta Llama 3 és a Mistral AI Mixtral 8x7B.

Vannak olyan további lehetőségek is, amelyeket LLM-nek gondolhat, pedig SLM-ek valójában. Ez különösen igaz, mivel a legtöbb vállalat a többmodell-megközelítést alkalmazza, tehát több mint egy nyelvi modellt kínál a portfóliójában, beleértve LLM-eket és SLM-eket. Például a GPT-4 különböző modellekből áll, beleértve a GPT-4, GPT-4o (Omni) és GPT-4o mini modelleket.

Kis nyelvi modellek vs. Nagy nyelvi modellek

A SLM-ek megvitatása során nem hagyhatjuk figyelmen kívül nagy megfelelőjüket, azaz az LLM-eket. A fő különbség az SLM és az LLM között a modell mérete, amelyet a paraméterek számával mérünk.

Írásunk időpontjában az AI iparban nincs konszenzus arra vonatkozóan, hogy hány paraméter legyen maximum egy modellben ahhoz, hogy SLM-nek minősüljön, vagy hány paraméter szükséges a LLM-hez. Azonban az SLM-ek jellemzően milliók, néhány milliárd paraméterrel rendelkeznek, míg az LLM-ek ennél jóval többel, akár trillióval is.

Például a 2020-ban kiadott GPT-3-nak 175 milliárd paramétere van (és a GPT-4 modellről azt pletykálják, hogy körülbelül 1,76 trillió), míg a Microsoft 2024-es Phi-3-mini, Phi-3-small és Phi-3-medium SLM-je 3,8, 7, és 14 milliárd paramétert mér.

Microsoft

Az SLM-ek és az LLM-ek közötti másik megkülönböztető tényező az edzéshez használt adatok mennyisége. Az SLM-eket kisebb mennyiségű adat alapján képezik, míg az LLM-ek nagyméretű adathalmazon tanulnak. Ez a különbség befolyásolja a modell képességét a bonyolult feladatok megoldására.

Az LLM-eket érintő nagy adatfeldolgozási igények miatt jobban alkalmazhatók különböző típusú, bonyolult feladatok megoldására, amelyek fejlett érvelést igényelnek, míg az SLM-ek inkább az egyszerűbb feladatokhoz alkalmasak. Az LLM-ekkel ellentétben az SLM-ek kevesebb edzésadatot használnak, de az adatminőségnek magasabbnak kell lennie ahhoz, hogy sok képességet elérjenek, amelyek az LLM-ekben találhatóak egy apró csomagban.

Miért a kis nyelvi modellek a jövő?

A legtöbb alkalmazás esetén az SLM-ek jobban pozicionáltak ahhoz, hogy a vállalatok és a fogyasztók által használt fő modellé váljanak, a különféle feladatok széles spektrumának elvégzésére. Igen, az LLM-eknek megvannak az előnyeik, és jobban alkalmasak bizonyos esetekre, például összetett feladatok megoldására. Azonban az SLM-ek a jövőt képviselik a legtöbb felhasználási esetben a következő okok miatt:

1. Alacsonyabb edzés- és fenntartási költségek

Timofeev Vladimir/Shutterstock

Az SLM-ek kevesebb adatra van szükségük az edzéshez, mint az LLM-eknek, így a legjobban alkalmas opciók azok számára, akiknek korlátozott edzésadataik vagy pénzügyi erőforrásaik vannak. Az LLM-ek nagy mennyiségű edzésadatot igényelnek, és ennek következtében hatalmas számítási erőforrásokat igényelnek az edzéshez és a futtatáshoz.

Például az OpenAI vezérigazgatója, Sam Altman, megerősítette, hogy a GPT-4 edzéséhez több mint 100 millió dollárra volt szükség, amikor az MIT-n tartott eseményen beszélt (ahogyan azt az Wired riportálta). Egy másik példa a Meta OPT-175B LLM. A Meta azt állítja, hogy 992 NVIDIA A100 80GB GPU-n képezték, amelyek egységáron körülbelül 10 000 dollárba kerülnek, a CNBC szerint. Ez körülbelül 9 millió dollárra teszi a költségeket, nem számolva más kiadásokat, mint az energia, bérletek stb.

Ilyen számok mellett nem ésszerű a kis és közepes vállalatok számára, hogy LLM-et képezzenek. Ezzel szemben az SLM-ek erőforrás szempontjából alacsonyabb belépési küszöbbel bírnak, és kevesebbe kerül a fenntartásuk, így több vállalat fogja őket igénybe venni.

2. Jobb teljesítmény

GBJSTOCK / Shutterstock

A teljesítmény az a terület, ahol az SLM-ek gyakran felülmúlják az LLM-eket a kompakt méretüknek köszönhetően. Az SLM-ek esetében alacsonyabb a késleltetés, és sokkal jobban alkalmazhatók olyan helyzetekben, amikor gyorsabb válaszokra van szükség, például valós idejű alkalmazásokban. Például árnyaltabb válaszpreferenciák érvényesek a digitális asszisztensek hangalapú rendszereiben.

A helyi futtatás (erről később bővebben) azt is jelenti, hogy a kérdéseid nem igénylik az online kiszolgálókra és vissza történő utazást, ami még gyorsabb válaszokat eredményez.

3. Pontosabb

ZinetroN / Shutterstock

A generatív mesterséges intelligencia területén egy dolog állandó: a kapott minőség a feldolgozott minőségből fakad. Jelenlegi LLM-eket nyers internetadatok nagy adatbázisaival képezték ki, így nem mindig pontosak. Ez az egyik probléma a ChatGPT-vel és a hasonló modellekkel, és ezért nem érdemes mindent elhinni, amit egy AI chatbot mond. Ezzel szemben az SLM-eket magasabb minőségű adatokkal tanítják, így magasabb pontosságot érnek el.

Az SLM-eket továbbá specifikus feladatokon vagy területeken való fókuszált képzéssel is finomhangolhatják, így ezek a területek sokkal pontosabbak lehetnek, mint a nagyobb, általános modellek esetében.

4. Futtathatók helyben

Pete Hansen/Shutterstock

Az SLM-ek kevesebb számítási teljesítményt igényelnek az LLM-ekhez képest, így ideálisak a perem számítási esetekhez. Telepíthetők perem eszközökre, például okostelefonokra és autonóm járművekre, amelyek nem rendelkeznek nagy számítási teljesítménnyel vagy erőforrásokkal. A Google Nano modell képes helyben futni, lehetővé téve, hogy internetkapcsolat nélkül is működjön.

Ez a képesség mind a cégek, mind a fogyasztók számára előnyös helyzetet teremt. Egyrészt nyerünk a magánélet védelmében, mivel a felhasználói adatokat helyben dolgozzák fel, nem a felhőbe küldik, ami fontos, ahogy egyre több AI integrálódik az okostelefonjainkba, amelyek gyakorlatilag minden részletünket tartalmazzák. Ez hasznos a cégeknek is, mert nem kell széleskörű kiszolgálókat telepíteniük és üzemeltetniük az AI feladatokhoz.

Az SLM-ek egyre nagyobb tért hódítanak, a legnagyobb iparági szereplők, mint az Open AI, a Google, a Microsoft, az Anthropic és a Meta, ilyen modelleket bocsátanak ki. Ezek a modellek sokkal alkalmasabbak az egyszerűbb feladatokra, amelyeket a legtöbb esetben mi is elvárunk az LLM-ektől; így tényleg a jövő.

Az LLM-ek viszont nem eltűnnek; helyette az fejlettebb alkalmazásokhoz fogják felhasználni őket, amelyek információkat kombinálnak különböző területekről, hogy új dolgokat hozzanak létre, mint például az orvosi kutatásokban.

Összegzés: A kis nyelvi modellek (SLM) jelentős előnyöket kínálnak a vállalatok és a felhasználók számára, beleértve az alacsonyabb költségeket, jobb teljesítményt és a helyi futtathatóságot. Ahogy a technológia fejlődik, úgy az SLM-ek pozicionálása egyre fontosabbá válik a mesterséges intelligencia jövőjében, lehetővé téve a széleskörű alkalmazást a mindennapi feladatokban.