Tartalomjegyzék
Kulcs elvitelek
- A Google Gemini 1.5 egymillió token kontextusablakot vezet be, megelőzve az olyan versenytársakat, mint a Claude és a ChatGPT.
- A nagyobb kontextusablak javítja az AI-modell teljesítményét és csökkenti a hibákat, de nem biztos, hogy garantálja az általános sikert.
- A Gemini 1.5 nagyobb környezeti ablaka nagymértékben javíthatja a pontosságot, csökkentheti a hibákat és javíthatja a megértést.
A Google Gemini 1.5 most hatalmas, egymillió token kontextusablakkal érkezik, ami eltörpül a ChatGPT, a Claude és más mesterséges intelligencia csevegőbotok közvetlen versenye mellett.
Úgy hangzik, mint egy hatalmas frissítés, és megkülönböztetheti a Geminit. Kicsit nehéz felfogni a teljes terjedelmét – de a Gemini hatalmas kontextusablakja megváltoztathatja a játékot.
Mi az a kontextusablak?
Az AI-modellek a kérdések megválaszolásakor, például egy fogalom magyarázata vagy egy szöveg összefoglalása során korlátozzák, hogy mennyi adatot vehetnek figyelembe a válasz generálásához. A figyelembe vehető szövegméret korlátját környezeti ablaknak nevezzük.
Íme egy másik módja annak, hogy megnézzük. Tegyük fel, hogy bemegy egy élelmiszerboltba, hogy élelmiszert vásároljon a listája nélkül. A kontextusablak korlátozza, hogy hány élelmiszerre emlékszik vásárláskor. Minél több élelmiszerre emlékszik, annál nagyobb az esélye, hogy nem téveszti össze vásárlási terveit. Hasonlóképpen, minél nagyobb egy AI-modell kontextusablakja, annál nagyobb az esélye annak, hogy a modell mindent megjegyez, amire szüksége van a legjobb eredmény eléréséhez.
A cikk írásakor az Anthropic Claude 2.1 200 000 kontextusablakja a legnagyobb kontextusablak az általánosan elérhető AI modellek közül. Ezt követi a GPT-4 Turbo 128k-os kontextusablakkal. A Google Gemini 1.5 egymillió kontextusablakot hoz, négyszer nagyobbat, mint bármi a piacon. Ez elvezet a nagy kérdéshez: mi a nagy baj az egymillió token kontextusablakkal?
Miért nagy üzlet a Gemini 1.5 környezeti ablaka?
A világosabb perspektíva érdekében a Claude AI 200 000 kontextusablak azt jelenti, hogy képes megemészteni egy körülbelül 150 000 szavas könyvet, és választ ad rá. Ez masszív. De a Google Gemini 1.5-je egyszerre 700 000 szót képes megemészteni!
Amikor egy nagy szövegblokkot betáplál a mesterséges intelligencia csevegőbotjaiba, például a ChatGPT-be vagy a Geminibe, az megpróbálja megemészteni a szöveg lehető legtöbb részét, de az, hogy mennyit képes megemészteni, a kontextusablaktól függ. Tehát, ha van egy beszélgetése, amely 100 000 szót tartalmaz egy olyan modellen, amely csak 28 000 szót képes kezelni, majd olyan kérdéseket tesz fel, amelyek megkövetelik, hogy teljes mértékben ismerje a 100 000 szót jelentő beszélgetést, akkor kudarcra állítja.
Képzelje el, hogy csak 20 percet néz meg egy egyórás filmből, de megkérik, hogy magyarázza el az egész filmet. Mennyire lennének jók az eredményeid? Vagy megtagadja a választ, vagy egyszerűen csak kitalál valamit, amit egy MI chatbot tenne, ami mesterséges intelligencia hallucinációkhoz vezet.
Nos, ha arra gondol, hogy még soha nem kellett 100 000 szót betáplálnia egy chatbotba, akkor nem ez az egész. A kontextusablak felülmúlja az AI-modellt egyetlen promptban betáplált szöveget. Az AI-modellek figyelembe veszik a csevegés során folytatott teljes beszélgetést annak biztosítása érdekében, hogy válaszaik a lehető legrelevánsabbak legyenek.
Tehát, bár nem 100 000 szavas könyvet ad neki, az oda-vissza beszélgetései és az általa adott válaszok mind hozzájárulnak a kontextusablak számításához. Kíváncsi vagy, hogy a ChatGPT vagy a Google Gemini miért felejti el folyton azokat a dolgokat, amiket korábban elmondtál egy beszélgetés során? Valószínűleg kifogyott a kontextusablakból, és elkezdett elfelejteni dolgokat.
A nagyobb kontextusablak különösen fontos a kontextus mély megértését igénylő feladatoknál, mint például hosszú cikkek összefoglalása, összetett kérdések megválaszolása vagy koherens narratíva fenntartása a generált szövegben. Szeretne egy 50 000 szavas regényt írni, amely végig következetes narratívát tartalmaz? Olyan modellt szeretne, amely képes „nézni” és válaszolni a kérdésekre egy egyórás videofájlban? Nagyobb kontextus ablakra van szüksége!
Röviden, a Gemini 1.5 nagyobb kontextusablakja jelentősen javíthatja az AI-modell teljesítményét, csökkentve a hallucinációkat, és jelentősen növelheti a pontosságot és az utasítások jobb követésének képességét.
Beváltja a Gemini 1.5 a hozzá fűzött reményeket?
Ha minden a tervek szerint alakul, a Gemini 1.5 potenciálisan felülmúlhatja a piac legjobb AI modelljeit. Figyelembe véve azonban, hogy a Google számos kudarcot vallott a stabil AI-modell felépítésében, fontos, hogy tévedjünk az óvatosság mellett. Egy modell kontextusablakának felpörgetése önmagában nem teszi automatikusan jobbá a modellt.
Hónapok óta használom a Claude 2.1 200 000 kontextusablakát a megjelenése óta, és egy dolog világos számomra: egy nagyobb kontextusablak valóban javíthatja a kontextusérzékenységet, de az alapmodell teljesítményével kapcsolatos problémák a nagyobb kontextus problémát okozhatnak. saját.
A Google Gemini 1.5 változást hoz nekünk? A közösségi média jelenleg tele van a Gemini 1.5-ről szóló, korai hozzáféréssel rendelkező felhasználók ragyogó véleményeivel. A legtöbb 5 csillagos értékelés azonban elhamarkodott vagy leegyszerűsített használati esetekből származik. Jó hely annak ellenőrzésére, hogy a Gemini 1.5 hogyan teljesít a vadonban, a Google-ban található Gemini 1.5 technikai jelentés [PDF]. A jelentés azt mutatja, hogy a modell még az „ellenőrzött tesztelés” során sem tudta lekérni a dokumentumok összes apró részletét a kontextusablak méretén belül.
Az egymillió tokenes kontextusablak valóban lenyűgöző technikai bravúr, de ha nem tudnánk megbízhatóan visszakeresni egy dokumentum részleteit, akkor egy nagyobb kontextusablaknak kevés a gyakorlati értéke, és akár a pontosság csökkenése és a hallucinációk oka is lehet.