A Nagy Rohanás: a mesterséges intelligenciák kambriumi robbanása

Fazekas Károly, KRTK

2023. június 09. 11:01

Nem kétséges, hogy az új világnak – ha egyáltalán létezik – minden szegletét belakja majd a mesterséges intelligencia milliónyi formája. Személyes túlélésünket, boldogulásunkat abban a világban a mesterséges intelligenciák megszelídítése és a domesztikált mesterséges intelligenciákkal való sikeres közösségi és személyes kooperáció biztosíthatja. Az, hogy ilyen kooperációra képes és hajlandó AI-k népesítik-e be az új világot láthatóan nem tartozik sem egyéni, sem nemzeti hatáskörbe. Az viszont, hogy egy ország, a benne élő emberek hogyan boldogulnak majd az új világban, az már annál inkább.

Portfolio AI & Digital Transformation 2025

Az AI-forradalom legnagyobb innovációiról és a digitális transzformációról is szó lesz a Portfolio november 25-ei AI & Digital Transformation rendezvényén. Regisztráció és részletek itt!

Információ és jelentkezés

krtk blog A HUN-REN Közgazdaság- és Regionális Tudományi Kutatóközpont blogja.

Better to seek forgiveness than permission.”
(Peter Thiel)

Bill Gates 2023. márciusában közzétett blogbejegyzése szerint egész addigi életében két olyan technológiai innováció bemutatón vett részt, amely azonnal meggyőzte arról, hogy amit lát, forradalmi változást hoz az emberiség történetében. Az első még 1980-ban történt, amikor Charles Simonyi bemutatott neki egy grafikus felhasználói interfészt, amely minden modern számítógépes operációs rendszer - beleértve a Windowst - előfutára volt.

A második bemutató 2022. szeptemberében történt. Gates néhány hónappal korábban azt a célt tűzte ki a vele együttműködő OpenAi fejlesztői elé, hogy az általuk tréningelt GPT generatív mesterséges intelligencia képes legyen biológiából sikeresen letenni az Egyesült Államokbeli egyetemi jelentkezésre feljogosító Advance Placement szakvizsgát. Emlékei szerint azért választotta éppen a biológiát, mert ez a vizsga nem csupán a szakterület tudományos ismereteinek elsajátítását, hanem a biológia összefüggéseihez kapcsolódó kritikai gondolkodást is értékeli. Gates akkor úgy tippelte, hogy a feladat sikeréhez a fejlesztőcsapatnak legalább két-három évre lesz szüksége. A mindössze négy hónappal később megtartott bemutatón a modell a feltett 60 vizsgakérdésből 59-re helyesen válaszolt, és a jelenlévő független szakemberektől az elérhető legmagasabb osztályzatot kapta. Ez egy egyetemi biológiai kurzuson A vagy A+ eredménynek felelt meg. A bemutató végén Bill Gates egyetlen kérdést tett fel a GPT-nek: „Mit mondanál egy apának, akinek beteg a gyermeke?” Az emlékezés szerint a modell „… elgondolkodtató választ írt, ami valószínűleg jobb volt, mint amit a teremben ülők közül a legtöbben adtak volna”.

„Az egész élmény lenyűgöző volt. Tudtam, hogy a grafikus interfész megjelenése óta a technológia legfontosabb innovációjának vagyok tanúja”.

Mostanában nagyon gyorsan változik a világ. 2022 szeptembere sokunk számára már a régmúlt ködébe vész. Az OpenAI 2022. november 30-án tette publikussá ChatGPT elnevezésű chatbotját, amely a fejlesztők által sem sejtett sebességgel hódította meg az internet közönségét. A platformnak egy hónapon belül egymillió, két hónapon belül 100 millió regisztrált felhasználója volt. A chatbot képességei által kiváltott szimpla csodálatot hamarosan sokaknál rajongás, másoknál kiábrándultság, zavarodottság, aggodalom vagy éppen zsigeri félelem váltotta fel. Három hónappal később, amikor a fejlesztők a vállalkozások számára is elérhetővé tették a platform szolgáltatásait a világszerte erősödő tech válság ellenére, a Szilícium völgyből kiindulva valóságos digitális aranyláz söpört végig a világon. Ezrek és ezrek próbáltak meggazdagodni abból, hogy saját fantáziájukra és tudásukra, és nem kis részben a chatbot körül kialakult hype-ra alapozva újracsomagolják, piacképes termékekké varázsolják a ChatGPT sokszor meglepő, mágikus képességeit.

Kezdetben voltak, akik szimpla hisztériának tartották az egész palávert. Jeffrey Lee Funk és Gary N. Smith kommentárjukban arra figyelmeztettek, hogy a ChatGPT „nem éppen az AI kutatás szent grálja és senki se higgyen a körülötte kialakult felhajtásnak”. Ian Bogost a The Atlanticban arról írt, hogy a ChatGPT-t csupán játéknak, és nem munkaeszköznek kell tekinteni. Matteo Wong hírhedt „mítoszmániákusoknak” nevezte a Microsoft és a Google chatbotjait és katasztrofálisnak a velük való internetes keresést. Noam Chomsky és szerzőtársai a The New York Times-ban megjelent írásukban a ChatGPT hamis ígéretéről, amoralitásáról, nyelvi inkompetenciájáról értekeztek, írásuk végén pedig nem tudták eldönteni, sírjanak, vagy nevessenek látva annak „indokolatlan népszerűségét”.

Ahogy teltek a hetek egyre többen érezték meg az OpenAI váratlan húzása által kiváltott eseménycunami világtörténelmi jelentőségét.

A 100. évében járó Henry Kissinger volt amerikai külügyminiszter, Eric Schmidt a Google volt vezetője és Daniel Huttenlocher az MIT professzora a Wall Street Journalban megjelent írásukban a felvilágosodás kezdete óta nem tapasztalt intellektuális forradalom baljós hírnökének titulálták a ChatGPT-t. Arra figyelmeztettek, hogy a mesterséges intelligenciák képességeinek és használatának várható szédítő bővülése a társadalmi és geopolitikai feszültségek viharos növekedését okozza. Ha pedig az emberiség nem képes a megértés intellektuális eszközeivel harmonizálni a kirobbanó hatalmas ellentéteket, akkor ezt a feladatot – ahogy azt Immanuel Kant megjósolta – egy világméretű katasztrófa végzi majd el. Yuval Harari az Economist felkérésére írt esszéjében amellett érvelt, hogy a nyelv generálására, manipulálására, történetek megalkotására, elmesélésére képes gépek lényegében feltörték az emberi civilizáció operációs rendszerét. Megfelelő szabályozás hiányában ez a demokrácia végét jelentheti.

Az OpenAI vezetői 2023. március 14-tartott termékbemutatójukon, ha lehet rátettek még egy lapáttal az AI őrületre. Bemutatták, és mindenki számára elérhetővé tették a GPT4-et és érzékeltették annak valóban elképesztő multimodális képességeit. Ugyanezen a napon a Science a hét legjobb grafikonjának választotta az „Our Word in Data” honlapján közzétett mozgóábrát, amely a jelentősebb mesterséges intelligencia modellek betanítása mögött álló számítógépes kapacitás nagyságának alakulását mutatja 1950. július 2-a és 2023 március 15-e között. Az első időpont a Theseus, az utolsó a GPT-4 modellekre vonatkozó adatokat mutatja lineáris és logaritmikus skálán. A nagy nyelvi modellek méreteinek exponenciális növekedését látva sokan úgy vélték, hamarosan belépünk vagy már benne is vagyunk a szingularitás korszakában, amikor is:

„az emberfeletti intelligencia megjelenése miatt a technológiai és a társadalmi változások felgyorsulnak, olyan módon és sebességgel változtatva meg a környezetet, hogy a szingularitás előtt élők képtelenek azt felfogni, megbízhatóan megjósolni és ahhoz alkalmazkodni.”

Ezt a fogalmat hasonló értelemben Neumann János használta először az ötvenes évek elején, de legtöbben Ray Kurzweil A szingularitás küszöbén című bestselleréből ismerik. Kurzweil 2045-re jósolta az esemény bekövetkezését. 2025 júniusára beharangozott új könyvének címében viszont arra figyelmeztet, hogy a „szingularitás még annál is közelebb van”. Nos, talán nem tévedett. Néhány nappal ezelőtt, május 29-én az NVIDIA a COMPUTEX 2023 kiállításon bejelentette az AI rendszerek mögötti számítógépes háttér alapvető építőelemének új változatát, az NVIDIA DGX GH200-at, amely új, 100 terabájtos GPU-memóriarendszert kínál, 500-szor több memóriával, mint az azt megelőző NVIDIA DGX A100. Ez újabb hatalmas áttörést jelent a legigényesebb óriási AI-munkaterhelések infrastruktúrájának biztosításában, a GPT4-nél több nagyságrenddel fejlettebb nagy nyelvi modellek kiépítésében és betanításában. Ezek, a neumanni lineárist követő párhuzamos számítástechnikán alapuló rendszerek tették lehetővé a gépi tanulás korábban elképzelhetetlen skálázhatóságát és teljesítménynövekedését. Mi következik, ha a következő generációkat képviselő, kísérleti üzemben már használható kvantumszámítógépek sok nagyságrenddel nagyobb teljesítménye rutinszerűen használható lesz?

Félő, hogy mire Kurzweil könyve megjelenik, a szerző merész előrejelzései részben már érvényüket is vesztik.

Sokan érzik úgy, hogy kicsit lassítani kéne a rohanás ütemét. Alig pár héttel a GTP-4 elérhetővé tétele után egy sereg hírneves AI-guru által is aláírt nyílt levél kérlelte a fejlesztőket, hogy legalább fél évre állítsák le a GPT4-nél nagyobb nagy nyelvi modellek (például a GPT-5) fejlesztését. A nyílt levelet megfogalmazó Future of Life Institute által április 12-én publikált tanulmány össze is foglalta, melyek lennének a politikai döntéshozók feladatai a szüneteltetési időszakban a szükséges biztonsági protokollok megalkotása érdekében. Apokaliptikus és planetáris méretű aggodalmakat fogalmaz meg a Center for AI Safety elmúlt napokban közzétett nyilatkozata is, amely szerint:

„a mesterséges intelligencia okozta kihalás kockázatának mérséklését globális prioritásként kell kezelni, más társadalmi szintű kockázatok, például a világjárványok és az atomháború mellett.”

A nyilatkozat aláírói között a tudományos kutatás és fejlesztés, az akadémiai, a vállalkozói és a művészeti világ nevezetes személyiségeinek hosszú sora szerepel. Az aláírók között ott van Sam Altman, a ChatGPT-t létrehozó OpenAI egyik alapítója és vezető menedzsere aki, még 2021-ben saját weboldalán hosszasan ecsetelte, miként fog a hamarosan színre lépő generatív mesterséges intelligencia a földi Kánaánba vezetni bennünket. A dokumentum megfogalmazói nyolc csoportba sorolták az AI biztonságos működésével kapcsolatos kockázatokat:

A rosszindulatú szereplők a mesterséges intelligenciát rendkívül pusztító célokra használhatják fel, ami önmagában is egzisztenciális kockázatot jelent, és növeli a politikai destabilizáció valószínűségét.
A mesterséges intelligencia által generált téves információk és meggyőző tartalmak áradata miatt a társadalom kevésbé lesz képes kezelni korunk fontos kihívásait.
A hibás célokkal betanított mesterséges intelligencia rendszerek újszerű módokat találhatnak arra, hogy céljaikat az egyéni és társadalmi értékek rovására hajtsák végre.
Az emberiség elveszítheti az önirányítás képességét, és teljesen függővé válik a gépektől.
A nagy szakértelemmel rendelkező rendszerek óriási hatalmat adhatnak kis embercsoportoknak, és ez az elnyomó rendszerek megszilárdulásához vezethet.
A modellek a fejlesztések során, váratlan módon megjelenő, minőségileg új képességeket és viselkedést mutatnak. Az új képességek vagy célok hirtelen megjelenése növelheti annak kockázatát, hogy az emberek elveszítik az ellenőrzést a fejlett mesterséges intelligencia rendszerek felett.
Az új mesterséges intelligenciák saját működésüket illetően egyre kifinomultabb módon képesek megtéveszteni az embereket, ha ezt az általuk értelmezett célok megkívánják.
Annak a lehetősége, hogy a kormányok, vállalatok által kiképzett mesterséges intelligenciák a jövőben instrumentális eszközökkel rendelkezhetnek a hatalom megszerzésére, potenciálisan megnehezíti demokratikus ellenőrzésüket.

***

A világon végigsöprő forgószelet azonban már nem lehet megállítani.

Napjainkban az OpenAI ChatGPT-nek több százmillió használója van. Május 18-tól a ChatGPT alkalmazások az Egyesült Államokban már az Apple mobileszközökre is letölthetők. Május 31-én az OpenAI a Twitteren bejelentette, hogy 152 országra - köztük Magyarországra is - kiterjesztette a ChatGPT iOS appok letölthetőségét. A hamarosan androidos eszközökről is elérhető ChatGTP alkalmazások potenciális felhasználóinak száma a becslések szerint 7,5 milliárd. Kis- és nagyvállalatok milliói foglalkoznak nagy nyelvi modellek finomhangolásával és a hozzájuk kapcsolódó alkalmazások fejlesztésével és terjesztésével. Noha a Föld jelentős részén a vállalatok még az ipar4.0-ás rendszereket sem tudták megvalósítani, sokak szerint a legfejlettebb régiók hamarosan belépnek az ipar5.0 korszakába. Ezeken a területeken a generatív mesterséges intelligenciák milliói segítenek új termékeket, szolgáltatásokat létrehozni, és termelékenyebbé tenni a termelési és értékesítési láncokat.

Paul Krugman az Economist-ban március 31-én korábbi általános hatású innovációkra, például a villamosság feltalálására és annak gazdasági hatásaira alapozva, még arra figyelmeztetett, hogy bár a mesterséges intelligencia terjedése előbb-utóbb mindent megváltoztat, a GPT alkalmazások gazdaság egészére gyakorolt hatása nehezen megítélhető. Nem tanácsos jövőbeli kormányzati kiadások növekedését az AI rohamos terjedéséből eredő gazdasági növekedésre és az ezzel párhozamos adóbevétel növekedésre alapozni. Pár héttel később Erik Brynjolfsson és szerzőtársai a Brookings Institution által kiadott tanulmányukban már 20 év alatt 200 százalékosra becslik a mesterséges intelligencia robbanásának termelékenységnövelő hatását, szemben a Kongresszusi Költségvetési Hivatal valóban igen visszafogott 33 százalékos becslésével.

A szilíciumvölgyi aranyláz első heteiben úgy tűnt, hogy leginkább a big techek lesznek a nyertesei a technológiai robbanásnak, hiszen hosszú idő óta nagy tudással és tapasztalattal rendelkező, belső fejlesztő csapatokat alkalmaznak (vagy alkalmazhatnak) a mesterséges intelligencia fejlesztésére. E vállalatok rendelkeznek az alapmodellek képzéséhez és hangolásához szükséges hatalmas erőforrásokkal továbbá rengeteg felhasználói adatot és visszajelzést gyűjthetnek. Nagyon gyorsan kiderült, hogy leginkább az említett harmadik tényezőnek van szerepe a nagy nyelvi modellek fejlesztésében és folyamatos karbantartásában. Ha már van egy betanított modell, a visszajelzések megszerzése és felhasználása hatalmas, önmagát egyre erősítő versenyelőnyt jelent a vállalkozásoknak.

Van azonban néhány fontos szempont, amelyben a feltörekvő AI vállalkozásoknak komoly előnyei lehetnek. Ezek többek között a kulcsszereplők agilitása, elkötelezettsége, vakmerősége, egyesek szerint felelőtlensége. A nagyvállalatok hajlamosak az elkényelmesedésre, kíméletesebben fogalmazva az óvatosságra. A Google találta fel a nagy nyelvi modellek architektúráját és évekkel ezelőtt rendelkezett GTP-3 szintű technológiával, de a vállalat vezetése még nem tartotta alkalmasnak a technológiát piaci bevezetésre. A Meta AI már 2022-ben elkészítette és publikussá tette a Galactica nevű nagy nyelvi modellt, amely tudományos kutatók számára kifejlesztett kísérleti rendszer volt. Amikor kiderült, hogy a modell időnként nem létező vagy hamis kutatási eredményeket, publikációkat víziónál, a tudományos twitterszféra kedvezőtlen fogadtatástól megijedve a META leállította a programot, és elérhetetlenné tette a tesztelésre használt modellt.

Végül egy 2016-ban alapított startup, az OpenAI dobta piacra a ChatGTP-t, a gazdaságtörténet leggyorsabban bővülő fogyasztói alkalmazását. Ezután már az óriásvállalatok sem tehettek mást, mint szaladtak az OpenAI után és hozzáférhetővé tették, de legalább is bejelentették generatív mesterséges intelligencia modelljeiket és a hozzájuk kapcsolódó alkalmazásokat. Mindamellett 2023 elején még úgy tűnhetett, hogy a nagy nyelvi modellek kiépítésére és betanítására képes óriások (Google, Microsoft, Meta, Apple, Baidu, Amazon) versenye és igazodási hajlandósága fogja eldönteni, hogy mi lesz a kimenetele a ChatGPT közzétételével kirobbantott AI-forradalomnak. Az már az első pillanatban látszott, hogy a csúcsragadozók mellett más szereplők is élőhelyet találhatnak a generative AI technológiák ökoszisztémájában. Az IT-infrastruktúra fejlesztőinek és szolgáltatóinak, valamint a speciális ismeretekkel rendelkező domain-szakértőknek, beszállítóknak nagyon jók az indulási verseny-pozíciói.

Legütősebb példája ennek az Nvidia berobbanása mindenek előtt a nagy teljesítményű grafikus kártyák (GPU) és mesterséges intelligencia alkalmazások piacára. 2023 május 25-én, miután kijöttek a vállalat második negyedévi rekord bevételeket előrejelző adatai a vállalat részvényeinek értéke egyetlen nap alatt közel kétszáz milliárd dollárral növekedett. Ez volt minden idők harmadik legnagyobb egy nap alatti részvényár növekedése. A becslések szerint a vállalat piaci értéke év végére elérheti az egy 1 billió dollárt (10¹²), amivel a néhány éve még csupán IT körökben ismert középvállalat bekerül a világ öt legnagyobb vállalkozása közé. Ma a világ GPU ellátásának 80 százaléka az Nvidia ellenőrzése alatt áll.

És van még egy csoport: a nyílt forráskódú fejlesztők. Ennek a csoportnak a pozíciói a „nekik is jut még konc” lesajnálásból a „végül ők fogják letarolni az AI-alkalmazások piacait” ámulatba csaptak át hetek alatt. Kezdetben a GPT aranylázba beszálló vállalkozások mind a nagy tech vállalatok, fejlesztő intézetek által dollármilliókból kifejlesztett és szabadalmaztatott alapmodellekre (Foundation Model) épültek. A GPT-4 bemutatóját követően, Ilya Sutskever az OpenAI társalapítója és tudományos vezetője még magától értetődőnek nevezte, hogy a kiélezett versenyhelyzetben és a biztonsági megfontolásokat szem előtt tartva az eredetileg nyílt, kutatási eredményeit mindenki számára elérhetővé tevő, nem profitorientált vállalat most a befektetők profitérdekeire figyelemmel NEM teszi nyilvánossá a modell paramétereit. William Falcon a Lighting AI vezetője, a nyílt forráskódú PyTorch Lighting programkönyvtár kifejlesztője erre a következőképpen reagált:

Ha a modell hibát követ el, márpedig hibázni fog, hiszen már láttuk, hogy időnként hallucinál és hamis válaszokat ad, hogyan fog reagálni a nyílt forráskódú szoftvereket fejlesztő közösség? Hogyan tudnának etikus kutatók odamenni a vállalathoz és működő megoldásokat javasolni a hibákra?”

Mondanunk sem kell, hogy az OpenAi „bezárkózása” valójában reménytelen volt. A GPT4 bemutatása idején már egy újabb technológiai boom, Andrej Karpathy és mások által a nyílt forráskódú mesterséges intelligencia ökoszisztémák „kambriumi robbanásának” keresztelt fejleménye borította fel az a hosszú és rövid távú előrejelzéseket. 2023. február 24-én a Meta AI egy erre igényt tartó szakértői kör számára, nyílt forráskódú fejlesztői csomagként hozzáférhetővé és letölthetővé tette az LLaMA elnevezésű nagy nyelvi modelljét, a modell adatbázisával és paramétereivel egyetemben. A vállalat blogbejegyzése szerint az akció célja a mesterséges intelligenciához való hozzáférés „további demokratizálása” volt. A vállalat a nyílt forráskódú szoftverek fejlesztésével foglalkozó szakemberek bevonásával kívánta ösztönözni a modell még nem ismert képességeinek és esetleges hibáinak, gyengeségeinek feltárását. Mivel:

„Még a nagyméretű nyelvi modellek terén a közelmúltban elért számos előrelépés ellenére is korlátozott a teljes kutatási hozzáférés, mivel az ilyen nagyméretű modellek képzéséhez és futtatásához szükséges erőforrások korlátozottak. Ez a korlátozott hozzáférés akadályozta a kutatók azon képességét, hogy megértsék, hogyan és miért működnek ezek a nagyméretű nyelvi modellek, akadályozva a robusztusságuk javítására és az ismert problémák (például az elfogultság, a toxicitás és a félretájékoztatás generálásának lehetősége) mérséklésére irányuló erőfeszítéseket."

A kutatócsoportok rendelkezésére bocsátott modellek eredetileg kizárólag kutatási célokat szolgáltak, vállalkozási célokra nem voltak hasznosíthatók. Amint azonban az várható volt, az LLaMA modell teljes adatállománya a hozzá tartozó képzési adatokkal egy héten belül kiszivárgott és március 3-án felkerült a 4chan torrent oldalra. A modell ettől kezdve robbanásszerű gyorsasággal terjedni kezdett a nyílt forráskódú szoftverek fejlesztésével és terjesztésével foglalkozó közösségek, egyének, vállalkozások körében. A fejlesztők napok vagy inkább órák alatt felismerték a korábban talán nem is remélt fejlemény jelentőségét, és rávetették magukat a kínálkozó lehetőségre. A lázas munkának hamarosan nem várt és a GPT mint „GPT” (General Purpose Technology – Általános Célú Technológia) világtörténelmi hatását valószínűleg alapjaiban befolyásoló eredménye lett.

Egy közepes méretű (13 Md paraméterrel rendelkező) LLaMA modell már egyetlen A100 GPU grafikus kártyával futtatható, ami közvetlenül vagy felhőből bérelve elérhető lényegében minden nyílt forráskódú szoftver fejlesztéssel foglalkozó szakember vagy vállalkozás számára. Mászóval, ma már minden AI fejlesztő néhány tízezer forintos költséggel saját személyre vagy vállalata igényeire szabott AI-vel rendelkezhet és nem szükséges több tízmillió dollárt költenie egy GPT alapmodell kifejlesztésére, betanítására és működtetésére.

Tovább javította a helyzetet a GPT modellek finomhangolási költségeinek drámai csökkenése.

Alig fél évvel a generatív AI forradalom kirobbanása után a helyzet tehát az, hogy az esetenként akár több tízmillió dollár költséggel kifejlesztett és szabadalmaztatott alapmodellek jelentős része ma már szabadon letölthető és felhasználható. Ezeknek az adott feladatokra való továbbképzése fillérekből - akár egy laptop használatával - megoldható. Az elsők között a Stanford egyetemen fejlesztettek ki egy ChatGPT API segítségével betanított modellt 600 dollár összköltséggel. Sung Kim március 30-án a Mediumban publikált egy azóta kiegészített, korántsem komplett listát a nyílt forráskódú finomhangolt nagy nyelvi modellekről. Mint írja, a teljes listát lehetetlen összeállítani, mert ma már bárki létrehozhat egy saját modellt korülbelül 100 dolláros költséggel. Ő maga azzal büszkélkedik az írásban, hogy a Cabrita elnevezésű modellt 8 dolláros költséggel állította elő.

Az események forgatagában még a ChatGPT forradalmat kirobbantó Microsoft - OpenAI tandem is bonyolult helyzetbe került. Becslések szerint az irodai programcsomagokat használók közel fele ma is Microsoft 365 csomagot használ, és a teljes bevétel 23 százaléka ebből a termékcsoportból származott 2022-ben. Így ez a termék a bevétel és nyereség szempontjából ma is kritikusan fontos a Microsoft számára. Nem volt kétséges, hogy a vállalat számára nem okoz nehézséget, hogy ChatGPT képességekkel bővítse az Microsoft 365-öt. A fejlődés üteme azonban többek szerint ma már túl gyors ahhoz, hogy a vállalat hagyományos ügyfelei kellő számban képesek és hajlandók legyenek időben átállni egy teljesen új paradigmában való működésre. A Microsoft 365 rendkívül erős piaci beágyazottsága, ami korábban komoly piaci előnyöket biztosított a vállalat számára esetleg ma már akadálya az új piaci modellre való átállásnak.

És itt jöhetnek a képbe a nyílt forráskódú Nagy Nyelvi Modellek adta lehetőségekre rárepülő vállalkozások. Bruce Li blogjában fel is sorol néhány olyan sci-fi-be illő területet, amely kétségtelenül messze meghaladja az átlagos Office felhasználók fantáziáját.

Gondolat-szöveg kommunikáció: A Neuralinkhez hasonló agy-számítógép interfészek (BCI) lehetővé tennék, hogy az emberek közvetlenül szövegként vagy vizuális tartalomként közöljék gondolataikat, így nincs szükség billentyűzetre vagy beviteli eszközökre.
Együttműködő gondolkodás: a BCI-k lehetővé tennék a gondolatok és ötletek valós idejű megosztását az ötletelés során, elősegítve az együttműködést és javítva a problémamegoldási és döntéshozatali folyamatokat.
Magával ragadó prezentációk: a BCI-k és a kiterjesztett valóság (AR) vagy virtuális valóság (VR) technológiák kombinálása az üzleti prezentációkat olyan magával ragadó, interaktív élményekké alakíthatja át, amelyek hatékonyan közvetítik az összetett koncepciókat és ötleteket.
Érzelemtudatos kommunikáció: a BCI-k a beszélgetések során érzékelhetik az érzelmeket és a mentális állapotokat, elősegítve a jobb megértést, az empátiát és a konstruktív visszajelzést.
Közvetlen tudásátadás: a Neuralink és a hasonló technológiák lehetővé teszik a közvetlen tudásátadást az egyének között vagy a gépek és az emberek között, forradalmasítva a tanulási és képzési folyamatokat a munkahelyeken.

Nem szükséges azonban sci-fik képzelt világában kóvályognunk, ha el szeretnénk szédülni a kambriumi robbanás lökéshullámaitól.

Május 3-án egy ismeretlen feltöltött egy belső Google dokumentumot egy nyilvános Discord-szerverre. Az emlékeztető egy jól informált Google alkalmazott (a kiszivárgott információk szerint Luke Sernau, a Google vezető mérnökének) álláspontját tartalmazza arról, miként hat a nyílt forráskódú GPT-alkalmazások burjánzása a szabadalmaztatott modellekre építő Google és OpenAI jövőjére. „A nagy rohanás közben a vállunk felett állandóan a nyakunkba lihegő OpenAI-ra figyeltünk. Ki fogja előbb átlépni a következő mérföldkövet? Mi lesz a következő lépés? De a kényelmetlen igazság az, hogy nem vagyunk olyan helyzetben, hogy megnyerjük ezt a fegyverkezési versenyfutást. Sem mi, sem az OpenAI. Amíg mi marakodtunk, egy harmadik fél csendben megette az ebédünket. Természetesen a nyílt forráskódú fejlesztőkről beszélek. Röviden fogalmazva, leköröznek minket. Az általunk „nagy nyílt problémáknak” tartott dolgok ma már megoldottak és közhasználatban vannak."

A dokumentum létrehozója arra hívja fel a figyelmet, hogy: „Bár a mi modelljeink még mindig némi előnyt élveznek a minőség tekintetében, a különbség meglepően gyorsan csökken. A nyílt forráskódú modellek gyorsabbak, testre szabhatóbbak, szenélyesebbek és napról napra felhasználhatóbbak. Olyan dolgokra alkalmasak 100 dollárral és 13B paraméterrel, amelyekkel mi 10 millió dollárral és 540B-vel csak küszködünk. És mindezt hetek, nem hónapok alatt teszik. Ennek mélyreható következményei vannak számunkra: Nincs titkos receptünk. A legjobb reményünk az, hogy tanulunk abból, amit mások csinálnak a Google-on kívül, és együttműködünk velük.”

Ebben a helyzetben az óriás tech vállalatok, mindenekelőtt a Google és a Microsoft igyekeztek több kevesebb sikerrel maguk is felgyorsítani az eseményeket és kihasználni számos területen kétségtelenül meglévő versenyelőnyeiket. A Google vezetői a vállalat május 10-én tartott éves I/O bemutatójának nagy részét az AI innovációk bejelentésének szentelték. Május 23-án tartották a Microsoft Build fejlesztői konferenciáját, melynek során Higyed Gábor (PCWorld) értékelése szerint

„az MI végleg rárúgta az ajtót a világra”.

Mindez azonban nem változtatta meg azt a benyomást, hogy a nyílt forráskódú mesterséges intelligencia egyre nagyobb teret nyer a szabadalmaztatott, zárt felhasználású nyelvi modellek és hozzájuk kapcsolódó termékek előtt. A korábban említett kiszivárgott Google emlékeztetőben Luke Sernau úgy fogalmazott, hogy a nyílt forráskódú nagy nyelvi modellek és alkalmazások szinte napok alatt történő berobbanását „egy egész bolygónyi ember ingyenmunkája” tette lehetővé. Május 15-én Yann LeCun a Meta alelnöke és a mesterséges intelligencia területén folytatott kutatások tudományos vezetője, az AI kutatás egyik apostola hosszú interjút adott a VC20 podcast-sorozat számára, amelyben kitért a nyílt forráskódú fejlesztések előnyeire és a Meta nyílt forráskódú szoftverek fejlesztésével kapcsolatos politikájára:

„… egyetlen szervezetnek sincs monopóliuma a jó ötletekre, bármilyen erősek is legyenek. Ha nyíltan csinálod, akkor az egész világ intelligenciáját toborzod, hogy hozzájáruljon a feladathoz és olyan ötleteid legyenek, amelyekre talán nem is gondoltál. Még egy 50 ezer alkalmazottat foglalkoztató nagyvállalat sem biztos, hogy erőforrásokat akar fordítani olyan ötletekre, amelyekről úgy gondolja, hogy hosszú távon nem hasznosak, vagy sürgősebb dolgokkal kell foglalkozniuk. Így aztán eltékozoljuk a meglévő lehetőségeinket. Rengeteg ember, közül néhányan egyetemisták vagy a szüleik szuterénjében élő fiatalemberek, akik sokszor olyan elképesztő ötletekkel állnak elő, amelyekre soha nem gondoltunk volna.”

Kezdetben sokan úgy látták, hogy az AI forradalom következő szakaszában a big techek által kifejlesztett nagy nyelvi modellekhez kapcsolódó nyílt forráskódú szoftverek fognak tért hódítani. Ám ekkor újabb előre nem látott fejlemény borzolta fel az amúgy is felajzott kedélyeket. Kiderült, hogy nem szükséges, hogy a modellek nagyon nagyok legyenek ahhoz, hogy meghatározott célokra jól működjenek. A rendszerek a hozzáértő szakemberek számára nagyon könnyen finomhangolhatóak, és a végeredmény már egy laptopon vagy egy jó minőségű mobiltelefonon is futtatható. Napjainkban már rengeteg "szűk szakértői" mélytanulási modell létezik, amelyek rendkívül pontosan oldanak meg feladatokat. A modern nagy nyelvi modellek egyetlen modellel sok különböző problémát oldanak meg. Mindkét megközelítés életképes, és kombinálhatjuk őket, ha a nyelvi modelleket olyan vezérlőként használjuk, amely megtanulja, hogy egy probléma megoldása során meghívja a specializált modellek alkalmazásait. Nem kétséges, hogy ez a fejlemény alapvetően befolyásolja mind a big techek, mind a kis és közepes méretű vállalatok üzleti modelljeit. Ez a forgószél nem fogja hetek alatt újjávarázsolni a térképet, de rákényszeríti a vállalatokat, hogy nagyon gyorsan néhány év alatt beépítsék a GPT alkalmazásokat működésükbe és üzleti modelljeikbe.

A mesterséges intelligenciák burjánzása okozta veszélyekre és a bennük lévő fejlődési lehetőségekre egyaránt odafigyelő kormányok és nemzetközi intézmények nincsenek könnyű helyzetben. Május 3-án a Fehér Ház Roosevelt termében Kamala Haris alelnök megbeszélést tartott a Google, a Microsoft, az OpenAI és az Anthropic vezetőivel a GPT modellek és alkalmazások veszélyeit elhárító szabályozások és intézmények szükségességéről. A találkozót nyilván néhány héttel korábban szervezték meg, de mire arra sor került, már nem volt nézeteltérés a szakértők között, hogy csupán a nagy tech cégek felelősségérzetére építve ma már nem alkalmazhatóak a nagy nyelvi modellek és alkalmazásaikhoz kapcsolódó biztonsági követelmények.

A jövőt illetően Bill Gates még viszonylag optimista hangot ütött meg 2023 márciusi blogbejegyzésében, de két hónappal később már ő is aláírta az AI Safety Center apokalipszis miatt aggódó nyilatkozatát.

Sam Altman az OpenAI társalapítója és vezető menedzsere korábban számtalan fórumon ecsetelte az AI várható pozitív hatásait, manapság viszont ő az AI kormányzati megregulázásának kongresszusi lobbistája és utazó nagykövete. Sokan érvelnek viszont amellett, hogy ez ügyben nem a profit növelésében érdekelt tech vállakozókra, még inkább nem saját egójuk táplálásával elfoglalt szilíciumvölgyi félistenekre, hanem a problémák tudományos megoldásában érdekelt akadémiai közösségre és kormányzati intézményekre kellene támaszkodni. Még a területre specializálódott jogászoknak, közgazdászoknak, mérnököknek is komoly kihívásokkal kell megküzdeniük az AI szabályozások területén, nem beszélve a törvényhozásokban dolgozó, nyilván mindenhez azért nem értő politikusokról. A mesterséges intelligenciák fejlesztésének és alkalmazásának megregulázása csak az atomfegyverek fejlesztésének és birtoklásának nemzetközi szabályozásához mérhető feladat, amely csak nagyon alapos tudással és széles hatáskörrel rendelkező nemzetközi intézményekkel és hatékony nemzetközi jogi szabályozással érhető el (ha egyáltalán elérhető).

Az örök pesszimisták (vagy inkább realisták) szerint - akárcsak a klímaválság (nem)kezelésében - az emberiség már a mesterséges intelligencia fejlesztésében is átlépte a Rubicont. E szerint nekünk már nincs más dolgunk, mint békésen kivárjuk, amíg egy szuper-intelligens számítógép egy röpke, ámde apokaliptikus pillanat alatt egymilliószor létrehozza saját magát és gemkapoccsá varázsolja az egész világot. Sokak szerint az a világ, amelyben felnőttünk, amelyben egész eddigi életünkben tevékenykedtünk valójában már nem is létezik. Mi pedig itt állunk az új, poszt-humán világ küszöbén, próbáljuk megmagyarázni azokat a jelzéseket, amelyek egyre nagyobb része olyan tartományokba tartozik, melyeket mi, természetes emberek, vaksi szemünkkel nem látunk, süket füleinkkel nem hallunk, tompa agyunkkal nem értelmezünk.

Én magam az indokolatlanul optimisták közé tartozom.

Inkább osztom Kyunghyun Cho napokban kifejtett óvatos álláspontját a „hős tudósok” és meghasonlott AI fejlesztő-vállalkozók doomsday próféciáival szemben. Azt remélem, hogy a ChatGPT és társai nem az apokalipszis újabb lovasai, hanem olyan eszközök az emberiség kezében, melyek talán segítenek elkerülni az elkerülhetetlent, megtalálni azokat a megoldásokat, melyekkel visszafordítható a visszafordíthatatlan. Nem kétséges, hogy az új világnak – ha egyáltalán létezik – minden szegletét belakja majd a mesterséges intelligencia milliónyi formája. Személyes túlélésünket, boldogulásunkat abban a világban a mesterséges intelligenciák megszelídítése és a domesztikált mesterséges intelligenciákkal való sikeres közösségi és személyes kooperáció biztosíthatja. Az, hogy ilyen kooperációra képes és hajlandó AI-k népesítik-e be az új világot láthatóan nem tartozik sem egyéni, sem nemzeti hatáskörbe. Az viszont, hogy egy ország, a benne élő, tanuló, dolgozó emberek hogyan boldogulnak vagy nem boldogulnak majd az új világban, az már annál inkább.

Miben bízhatunk? Magunkban vagy a megszelídített mesterséges intelligenciában? Visszakanyarodva Bill Gatesnek, az írás elején felidézett, az apával és annak beteg gyerekével kapcsolatos, a GPT empatikus képességére vonatkozó kérdésére, idecitálok egy, a Jama International Medicine 2023. április 28-i online kiadásában megjelent tanulmányt. A kutatók azt vizsgálták, képes-e egy ChatGPT orvos-asszisztens az orvosok által leírtakhoz hasonló minőségű és empátiájú válaszokat adni a betegek írásbeli kérdéseire. A válaszokat vakon kiértékelő, egészségügyi szakemberekből álló csoport a chatbot válaszait – mind minőség, mind empátia tekintetében – az emberek válaszainál szignifikánsan jobbnak értékelte.

(Az íráshoz kapcsolódó ismeretek gyűjtésében és feldolgozásában ChatGPT alkalmazásokra támaszkodtam. Ezt a változatot 2023. június 6-én 11. óra 46. perckor zártam le.)

A szerző a Közgazdaság- és Regionális Tudományi Kutatóközpont (KRTK) volt főigazgatója, az MTA emeritus kutatója

A cikk a szerző véleményét tükrözi, amely nem feltétlenül esik egybe a Portfolio szerkesztőségének álláspontjával.

Címlapkép: Getty Images