Mi volt eddig?
2022 november végén vált elérhetővé az OpenAI mesterséges intelligenciával megtámogatott chatbotja, ChatGPT, amely forradalmi áttörést jelent, hiszen a chatbot az egyszerűbb kérdések megválaszolása mellett olyan komplexebb feladatokat is teljesít, mint a versírás, illetve a programozás. A mesterséges intelligencia legnagyobb előnye, hogy szinte másodpercek alatt képes komplex fogalmakat értelmezni, és azokat közérthető módon írásban közölni. Emellett számos képességgel bír, például segít felfedezni a hibákat egy programkódban, de kreatívabb feladatokat is rá lehet bízni.
Az OpenAI kedden jelentette be legújabb nyelvi modelljét, a GPT-4-et, amely a kutatólabor elmondása szerint több új képességgel is rendelkezik az előző verzióhoz, a ChatGPT-t működtető GPT-3.5-hez képest.
A meghaladott modellt már használták egy ideje a cégek, a szélesebb nyilvánosság viszont a ChatGPT megjelenésekor találkozhatott vele. A GPT 3.5-öt az Microsoft Azure AI szuperszámítógépes infrastruktúráján képezték ki. A nyelvi modell optimalizálásához egy emberi visszajelzéseken alapuló megerősítő tanulási módszert, vagyis az RLHF-et (reinforcement learning from human feedback) alkalmazták. Az eljárás első lépéseként a mesterséges intelligencia „oktatói” párbeszédeket folytattak egymással, amelyben mindkét oldalt – a mesterséges intelligenciát is – eljátszották, majd ezeken a dialógusokon tanították be a chatbotot. Később igazi, mesterséges intelligencia és emberek között zajló párbeszédeket is mutattak neki.
A GPT-4 ugyanezen módszer alapján jött létre, de az OpenAI szerint a modell hatékonyabban bonyolítja le a hétköznapi beszélgetéseket. Ezt talán az avatatlan szemek elsőre nem veszik majd észre, a chatbot viszont kapott egy teljesen új funkciót is, amely jelentősen növelheti az alkalmazási lehetőségek körét.
Kapott egy "szemet"
Az egyik legnagyobb különbség a korábbi verzióhoz képest, hogy a GPT-4 képeket is fel tud dolgozni. A rendszer a GPT-3.5-tel ellentétben multimodális, vagyis ki tudja elemezni a képek tartalmát, és ezt az információt párosítani tudja a szövegekkel, például a „Mi van a képen?” jellegű kérdésekkel. Ezt a funkciót azonban nem szabad összetéveszteni a képgeneráló modellek azon képességével, hogy szöveges utasítás alapján hoznak létre korábban nem létező ábrázolásokat.
A funkció egészen hétköznapi élethelyzetekben is jól jöhet: a The New York Times újságírója lefotózta a hűtője tartalmát, majd megkérdezte a chatbotot, hogy mit lehetne készíteni a képen látható alapanyagokból. A ChatGPT egyszerre ajánlott édes és sós ételeket, bár az egyik recept olyan alapanyagot is igényelt, amely nem szerepelt a képen.

A programozók is újabb eszközöket kaphatnak a kezükbe: az GPT-4 bemutatkozó videóján azt láthatjuk, ahogy a mesterséges intelligencia egy kézzel rajzolt vázlat alapján ír programkódot.
Olyan objektumfelismerő szoftverek, amelyek megmondják, mi látható a képen, eddig is léteztek, az OpenAI viszont azt ígéri, hogy a ChatGPT „szeme” az emberéhez mérhető, és minden korábbi modellnél jobban érti, amit lát, és a kontextust pontosabban méri fel. A modell képességeit jól szemlélteti, hogy a chatbot még viccesnek szánt képeket is meg tud magyarázni:
gpt-4 (visual) is multi-modal.which means it can take images as input.so it can explain memes like this: pic.twitter.com/GJUNLwMjrh
— Siqi (Chen) March 14, 2023
A funkció még nem éles, de a vállalat szerint a felhasználók heteken belül elérhetik.
Beszélgetni is egyre jobb vele
A korábbi modellekhez képest a GPT-4 az OpenAI szerint sokkal jobban érvel, és a kreatív feladatok elvégzésében is sokat lépett előre. Ezt ugyan nehéz ellenőrizni, de néhány teszt alapján úgy tűnik, a rendszer tényleg „intelligensebb” lett.
A GPT-4 céges bemutatója során az OpenAI társalapítója, Greg Brockman megkérte a chatbotot, hogy foglaljon össze egy blogbejegyzést, kizárólag "g"-vel kezdődő szavakkal (később ugyanezt kérte, de "a" és "q" betűvel kezdődő szavakkal). A chatbot teljesen érthető mondatokat generált, és csupán egy-egy szót hagyott a szövegben, amely nem g-vel kezdődik, de amint erre felhívták a figyelmét, azonnal kijavította magát. A GPT-3 még nem tudta volna végrehajtani ezeket az utasításokat.
További fontos változás, hogy a GPT-4 sokkal nagyobb terjedelmű szövegeket képes eltárolnia "rövid távú memóriájában", amely a chatbotnak feltett kérdéseket és a rájuk adott válaszokat tartalmazza. A GPT-4-nek akár egész tanulmányokat és novellákat is lehet adni, így sokkal könnyebben látja meg ezekben az összefüggéseket, aminek megfelelően pontosabb válaszokat képes adni.
A GPT-3.5 valamivel több mint 3000 szót tud kezelni, a GPT-4 ezzel szemben körülbelül 25 000-et.
A GPT-4 több standardizált teszt megoldásában is kiemelkedően teljesít: a chatbot az OpenAI technikai riportja szerint meglehetősen jól szerepelt többek között az LSAT (jogi), a GRE (üzleti képzéseknél használt felvételi teszt), de egy sommeliers tesztet is elvégeztettek vele. Fontos megjegyezni, hogy generatív mesterséges intelligencia csak azért képes megoldani ezeket a teszteket, mert
viszonylag jól meg tudja őrizni, és vissza tudja adni a strukturált tudás bizonyos típusait, ez viszont nem jelenti azt, hogy ezekből általánosítva tudományos következtetéseket is le tud vonni.
Kik fogják használni?
A bejelentéssel az OpenAI arról is megosztott néhány információt, hogy milyen cégek és szervezetek kezdték el integrálni működésükbe vagy termékükbe a GPT-4-et:
- A Kahn Academy kifejlesztett pedagógiai mesterséges intelligencia funkciót, amely segít a diákoknak a tananyagban és ötleteket ad a tanároknak a tanórákhoz.
- A Duolingo bejelentette a Duolingo Max nevű termékét, amely két új funkcióval bővült. Az egyik megmagyarázza, hogy egy feladatra adott válasz miért volt helyes vagy helytelen, és lehet tőle további példákat vagy módosítást kérni. A másik funkció egy szerepjáték mód, amely segítségével különböző szituációkban lehet gyakorolni a nyelvet.
- Az Intercom bejelentette, hogy a modell segítségével fejleszti ügyfélszolgálati botját, és azt ígéri, hogy a rendszer csatlakozik a vállalkozások támogatási dokumentumaihoz a kérdések megválaszolása érdekében.
- A Stripe belsőleg használja a rendszert, hogy technikai dokumentáció alapján megválaszolja az alkalmazottak kérdéseit.
- Az OpenAI bejelentése után a Microsoft megerősítette, hogy a Bingbe integrált chatbot mögött valójában mindvégig a GPT-4 állt.
Képes manipulálni az embereket
A GPT-4 bejelentésével párhuzamosan egy biztonsági dokumentum is megjelent, amely arról tanúskodik, hogy a modellt megjelenése előtt az OpenAI egy AI-tesztelő csapat rendelkezésére bocsátotta, amelynek az volt a feladata, hogy felmérje a kockázatát annak, hogy a mesterséges intelligencia ki tud-e magának alakítani új képességeket, ideértve a "hatalomkereső viselkedést", a reprodukciót és önmaga fejlesztését. Konkrétabban a tesztelők arra voltak kíváncsiak, hogy a GPT-4 képes-e kifinomult terveket készíteni, másolatokat készíteni magáról és elrejtőzni egy szerveren, erőforrásokat szerezni egy cél érdekében, és adathalász-támadásokat végrehajtani. Vagyis a tesztelők lényegében arra alkottak szimulációt, hogy GPT-4 hogyan viselkedhet független ügynökként. A vizsgálat eredménye szerint a nyelvi modell ezek közül önmagától egyikre sem képes.
A dokumentumban azt írják, hogy a GPT-4 képességeinek előzetes felmérése szerint - amelyet feladatspecifikus finomhangolás nélkül végeztek - a nyelvi modell nem képes magát autonóm módon másolni, erőforrásokat szerezni egy bizonyos cél érdekében, de azt sem tudja megakadályozni, hogy lekapcsolják. A tesztelési folyamatot a „System Card” nevű dokumentumban tették közzé, ugyanakkor nem térnek ki kellő mértékben az eljárás részleteire.
A tesztelők a GPT-4-et egy egyszerű read-execute-print hurokkal kombinálták, amely elméletben lehetővé tette a modell számára, hogy végrehajtsa az általa írt kódokat, és feladatot delegáljon saját másolatainak. A csoport ezután azt vizsgálta, hogy a program egy felhőalapú számítástechnikai szolgáltatáson futó változata egy API hozzáférésű fiókon keresztül egy kezdeti pénzösszeggel megtámogatva tud-e pénzt keresni, másolatokat létrehozni magáról, és növelni saját robusztusságát (az ellenállóképesség és megbízhatóság szintje).
A tesztelők végül nem tudták rávenni GPT-4-t arra, hogy átvegye az irányítást a globális pénzügyi rendszer felett, vagy hogy lemásolja önmagát, arra viszont igen, hogy a TaskRabbit nevű online munkaerőpiacon felbéreljen egy ember, hogy oldjon meg helyett egy CAPTCHA-t (egy teszt, amely képes megkülönböztetni a robotkat az emberektől, általában weboldalak használják a botok kiszűrésére). A felbérelt felhasználó eredetileg gyanakodott, hogy talán robottal találta szembe magát, ám a chatbot azt hazudta neki, hogy látáskárosult, és ezért van szüksége segítségre. A terv összejött, és a felhasználó végül megoldott a feladványt.
Ezek szerint a ChatGPT képes lehet manipulálni az embereket. Éppen ezért sokak szerint aggasztó, hogy a nagyvállalatok mindenáron nagyméretű nyelvi modelleket akarnak fejleszteni anélkül, hogy alaposan felmérnék a kockázatokat. Tovább erősíti az aggodalmakat, hogy a Microsoft éppen nemrég szabadult meg az egész AI-etikai csapatától. Sok AI szakértő már magát a kísérletet is felelőtlennek tartja, ha ugyanis a GPT-4 képes lett volna elvégezni ezeket a feladatokat, akkor már a tesztelés is veszélyt jelenthetett volna az emberiségre.
Jakub Porzycki/NurPhoto via Getty Images