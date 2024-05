Az OpenAI hétfőn mutatta be az új, egészen elképesztő képességekkel bíró GPT-4o AI-modelljét: valós időben beszél, fordít, lát minket, okosabb, gyorsabb, frissebb a tudása. Az új képességeknek hála gyakorlatilag emberi módon kommunikálhatunk a modellel, ami amellett, hogy lenyűgöző, egy picit azért már megint ijesztő is. A GenAI banki környezetben való hasznosításáról is szó lesz június 11-ei Financial IT konferenciánkon. Regisztráció és részletek itt!

Szintugrás

1987-es születésű Y-generációsként a tévére köthető Commodore 64-et tanultam meg először használni. Szerintem az adathordozók nagyon szépen fémjelzik a számítástechnika fejlődési időszakait, és felidézik, mikor milyen volt számítógépeket használni: én például a mágneskazettától és a nagyfloppytól a kisfloppyig, CD-től kezdve DVD-n át pendrive-ig, majd felhőig használtam az összes korabeli kütyüt és számítógépet mindenre, amire éppen lehetett. A 90-es években a user volt a rendszergazda és a hardverszaki is, így folyamatosan magunk frissítettük a gépeinket. A fejlődés mértéke már akkor is elképesztő volt: amit egy évvel korábban csúcstechnológiának hittünk, és beleépítettünk a gépünkbe, következő évre elavult, kuka lett, mert jött jobb, gyorsabb, töredékáron. A valósághűnek hitt tavalyi játékok csúnyák és egyszerűek lettek, a programok buták. De annak ellenére, hogy láttam ezt a rakétasebességű fejlődést, az internet elterjedését, és gyerekkoromtól falom a fantasy és sci-fi regényeket és filmeket, még most is nagyon nehéz felfogni, mi mindent rakott ki egyesekből és nullákból az emberiség az elmúlt néhány évben mesterséges intelligencia néven, és ezen belül is egészen pontosan az OpenAI.



Lát, hall, beszél és frissebb a tudása

Az OpenAI új modelljének neve GPT-4o (vagyis nem "4nulla", hanem „4o”), ahol az „o” az „omni”, azaz „minden” rövidítése. Ez egy multimodális modell szöveges, vizuális és audio be- és kimeneti képességekkel. Az új modell az OpenAI korábbi, látással kiegészített „GPT-4 with Vision” modelljének előző verziójára, a GPT-4 Turbóra (GPT 4T) épül.

Az újonnan kiadott modell képes beszélni, látni és interakcióba lépni a felhasználóval villámgyorsan és zökkenőmentesen. A GPT-4o bejelentésében az OpenAI a modell "sokkal természetesebb ember-számítógép interakcióra" való képességére helyezte a hangsúlyt, ugyanakkor a modell nem csak ebben fejlődött: sokkal gyorsabb lett, és a tudásbázisa is frissebb, 2023 októberéig tartó tudáshalmazzal tanították fel.

Elődeihez hasonlóan rendelkezik szöveg- és látásképességekkel, de a GPT-4o natív megértési és generálási képességekkel is rendelkezik az összes támogatott módban, beleértve a videót is.

Sokkal gyorsabb

Ahogy Sam Altman személyes blogján is rámutat, a legizgalmasabb előrelépés a modell sebessége, különösen akkor, amikor a modell hanggal kommunikál. Ez az első alkalom, hogy közel nullára csökkent a válaszkésleltetés, ezáltal a GPT-4o-val emberihez hasonló módon lehet beszélgetni.

A GPT-4o teljesítményét és sebességét az adja, hogy ez az egyetlen modell több almodellt kezel. A GPT-4 korábbi verziói több egycélú modellt használtak (hangról szövegre, szövegről hangra, szövegről képre generálás), és a különböző feladatokhoz a modellek közötti váltás széttöredezett élményt nyújtott.

Az OpenAI állítása szerint a GPT-4T-hez képest az új modell kétszer gyorsabb, 50%-kal olcsóbb mind a bemeneti (5 dollár/ 1 millió token), mind a kimeneti (15 dollár/ 1 millió token) tokenek tekintetében, és ötször nagyobb sebességgel dolgozza fel a tokeneket (akár 10 millió token percenként).

Az olyan nyelvi modellekben, mint a ChatGPT, a token egy szövegegységnek tekinthető. Ez lehet akár egy karakter rövidségű, vagy akár egy szó hosszúságú is. A tokenizálás azonban nyelvfüggő, és a tokenek hossza különböző nyelvekben eltérő lehet.

Beszélgetési képességek

A GPT-4o szupergyorsan, valós időben fordít a nyelvek között. Egészen elképesztő, hogy az AI ilyen rövid idő alatt jutott el arra a szintre, ami belátható időn belül elhozhatja a nyelvi korlátok globális megszűnését az élet legtöbb területén. A GPT-4oemcsak az emberi beszédet ismeri fel, visszajelzést tud adni például a légzés sebességéről is egy légzőgyakorlat során.

A GPT-4o mesterien bánik a kimeneti hanggal is, képes változtatni a kommunikáció sebességét, módosítani a hangokat, a saját hangszínét, sőt, még énekelni is tud, ha arra kérjük, és ezt megteszi saját magával is, duettben, ez a bemutatón is látványosan jól sikerült.

Az alábbi bemutatón a ChatGPT-vel hangalapon beszélgetve kódoltatnak élő adásban:

Ebben a kisvideóban szarkasztikusan beszél a ChatGPT, szitkomokban sem csinlják jobban:

A GPT-4o az összehasonlító tesztek szerint túlszárnylaja az OpenAI saját Whisper nevű modelljét, az automatikus beszédfelismerés korábbi csúcstechnológiáját, és felülmúlja a Meta és a Google más modelljeinek hangfordítási teljesítményét is.

Forrás: OpenAI

Látási képességek

Az új modell látási képessége is izgalmas use case-ek előtt villanthatja fel a zöld lámpát. Az élő bemutatón a GPT-4o-t arra kérik, mondja meg, mit érezhet a kamerába mosolygó teszter, mire a modell részletes leírással válaszol:

Valószínűleg meglehetősen boldog vagy, hatalmas mosoly van az arcodon, talán egy csipetnyi izgatottság. Akármi is történik most veled, úgy látszik, hogy jó hangulatban vagy.

A modellt arra is megkérik, ismerjen fel egy egyenletet, amit élőben, kézzel írnak fel, ezt követően ki is számolják az egyébként nem túl bonyolult egyenletet, majd még egy kis flört is belefért a ChatGPT-vel:

A látási, megértési és beszédképességet kombináltan alkalmazza a modell kiválóan, amikor kő-papír-olló meccset kommentál:

Szövegértés

Bár nem olyan látványos, mint a fenti videók, a modell szövegértési képessége is fejlődött. A GPT-4o szinte minden benchmarkban vezet a szövegértés terén a versenytársai előtt, és rekordot ért el a Massive Multitask Language Understanding (MMLU) teszten.

A nyelvi modellek képességeinek értékelésére szolgáló mérőszáma 88,7% lett, ami a valaha elért legmagasabb szám.

A többi mérőszámot tekintve is impresszív a modell teljesítménye, de van ahol még van tere a fejlődésnek. A Graduate-Level Google-Proof Q&A Benchmark teszten is javuló, de nem túl imponzást eredményt ért el (második oszlopcsoport). Ez egy 448 feleletválasztós kérdésből álló teszt, amelyet biológia, fizika és kémia szakértői írtak, itt 53,6%-os eredménnyel zárt.

Forrás: OpenAI blog

A szövegértési képességet dícséri, hogy a modell felismeri az olyan elvontabb fogalmakat is, mint egy "apa viccet" (dad joke):

A matek ugyan még mindig gyenge pontja a modellnek, de azért ebben a videóban bemutatják, hogy mértanból már egész jók a képességei:

Összességében a bemutatón látottak és az első összehasonlító értékelések alapján az OpenAI már megint nagyot robbantott, a modell fejlődése új üzleti use case-ek hozhat. Mert a modell egyre jobban lát, hall, fordít, és egyre kevésbé idegesítők a válaszai. Aki már kezdett annak örülni, hogy az AI körüli hype lefelé ível, most újra lesz miért bosszankodnia, mert a versenytársak is meg fognak érkezni, és higgyük el: ők is dolgoztak az elmúlt bő egy évben.

Felhasznált források: (Roboflow, OpenAI)

Címlapkép forrása: Jaap Arriens/NurPhoto via Getty Images