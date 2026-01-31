  • Megjelenítés
Amint azt a nemzetközi sajtóban is olvashattuk az elmúlt hónapokban, a hamis, AI alapú tartalmaknak közösségromboló erejük van. Súlyosan sérthetik a személyiségi jogokat, az érintettek társadalmi helyzetét, pszichés állapotát. Több fronton beavatkozhatnak a politikába is. Anyagilag romba dönthetnek embereket, leggyengébb pontjaik és érzéseik kizsákmányolásán keresztül. Álmarketing kampányok által közvetlen gazdaságbefolyásoló erejük lehet, krízis szituációkban pedig feltehetően életek múlhatnak rajtuk. Összességében az AI-megtévesztéseken alapuló csalások száma a közeljövőben még sokkal nagyobb is lehet. Mindez azt mutatja, hogy a mesterséges intelligencia felismerésének – vagy éppen annak, ha ez nem sikerül – vizsgálata aktuális és kiemelten fontos. Ahhoz azonban, hogy eljuthassunk egy lehetséges megoldási javaslathoz, néhány lépést vissza kell lépnünk: mind az AI-elméletben, mind pedig időben.
Az AI önfelismerésének kérdése

Az önfelismerés fogalma elméletileg tágan értelmezhető. Jelen esetben azt várjuk el egy AI-rendszertől, hogy valós idejű interakciók során képes legyen megkülönböztetni az emberi és a szintetikus tartalmakat. Az értelmezésnek azonban vannak határai: az önfelismerés alatt nem a mesterséges tudat filozófiai problémáit értjük, és nem is azt, hogyan reflektál a rendszer önmagára egy adott interakció során. Fontos megjegyezni, hogy bár léteznek technológiák a mesterséges tartalmak jelölésére és beazonosítására, ezek nem teljes körűek. A mesterséges intelligencia ráadásul gyorsabban fejlődik – és várhatóan gyorsabban is fog fejlődni –, mint a detekciós technológiák.

Ez a cikk a mesterséges intelligencia felismerésére irányuló kísérletekre épül, amelyeket három különböző nyelvi modellen végeztünk el. (Fontos megjegyezni, hogy a kísérletek eddig csak kis számú emberi résztvevővel zajlottak, a nagyobb léptékű vizsgálatok most is folyamatban vannak.)

A Turing-teszt és annak evolúciója

Maga a Turing-teszt még gondolatkísérlet formájában született, Alan Turing brit matematikus írta le egy cikkben 1950-ben. A teszt során egy ember – a bíráló vagy Turing eredeti kifejezésével az ‘interrogator’ – írásban kommunikál két másik entitással: egy másik emberrel és egy géppel, vagyis egy AI-programmal. Mindhárman külön helyiségben tartózkodnak, és a bírálónak egy meghatározott idő (például az eredeti leírásban szereplő 5 perc) elteltével döntenie kell arról, melyik beszélgetőtársa az ember. Azóta ezt a tesztet átültették a gyakorlatba, 30 évig verseny is szerveződött belőle, illetve sok hasonló jellegű teszt és tesztötlet megalkotását inspirálta.

A legismertebb verseny a Loebner Prize volt, amely 2019-ig működött. Itt több AI-alapú chatbot – például a Perry, at ELIZA vagy a Eugene Goostman – ért el kimagasló eredményeket, bár gyakran különféle trükkökkel éltek. Ezek a módszerek azonban hosszú távon ritkán bizonyultak fenntarthatónak vagy igazán meggyőzőnek a bírálók számára. A trükkök közé tartozott például, hogy a Perry egy skizofrén pácienst imitált, így a válaszok szándékos inkonzisztenciája zavarba hozhatta a bírálókat. Az ELIZA – Joseph Weizenbaum programja – terapeuta stílusban kommunikált, visszakérdezett, és visszaterelte a beszélgetést a felhasználóra. Az Eugene Goostman pedig egy ukrán tinédzser szerepét alakította, részben támaszkodva a bírálók kulturális és életkori előfeltevéseire.

A későbbi, úgynevezett „spin-off” tesztek egy része a Turing-teszt kibővített változatának tekinthető. Ilyen például a Truly Total Turing Test, amelyet akár humanoid robotokra is alkalmazni lehet, és az audiovizuális érzékelést vagy a tanulási képességeket is méri. Más megközelítések kifejezetten a kreativitást és a meglepő viselkedést vizsgálják, mint a Lovelace-teszt és annak továbbfejlesztett változata, a Lovelace 2.0 (Ada Lovelace brit matematikusról elnevezve). Emellett léteznek olyan tesztek is, amelyek elsősorban a logikai következtetésre koncentrálnak – például állítások, négyzetes feladványok formájában –, illetve olyanok, amelyek az AI adattömörítési képességeit értékelik.

De hogyan kapcsolódik a Turing-teszt a jelenlegi nagy nyelvi modellekhez (LLM)? A ChatGPT-4 volt az első AI-modell, amely konzisztensen meggyőző teljesítménnyel (valamivel 50% felett) ment át a Turing-teszten 2024 első felében. Ez már kifejezetten egyetemi kutatási keretek között történt, két amerikai, San Diego-i kognitív tudós, Jones és Bergen vezetésével. Egy online játék formájában elérhető Turing-teszt, a “Human or Not” alapján készült kutatás már 2023-ban tett hasonló kísérleteket, de akkor még nem érték el az LLM-ek stabilan az 50%-os küszöböt. Korábban, 2019-ben is kísérleteztek tartalmakkal, de nem párbeszédes formában (akkor még 84%-ban detektálni lehetett a gépet sikeresen).

Ha nem ragaszkodunk a Turing-teszt klasszikus, 1950-es formájához, a bíráló szerepét átruházhatjuk emberről gépre. Ezt a megközelítést nevezzük fordított Turing-tesztnek. A teszt ilyen módon történő módosítása nyolc lehetséges kimenetelhez vezethet (lásd 1. ábra).

Nézzük, hogy miért lehet a fordított Turing-teszt fontos és izgalmas konstelláció. A bíráló cseréjének lehetősége emberről gépre egy már 1996 óta létező koncepció. A struktúrát továbbgondolva beillesztettük mindezt egy úgynevezett ‘Turing-teszt evolúciós láncba’. Ebben a modellben a folyamat úgy írható le, hogy kezdetben az ember még képes megkülönböztetni az embert a géptől; később azonban már nem, miközben a gépek (AI) sem képesek erre megbízhatóan – jelenleg ebben a fázisban járunk. A végső szakaszban pedig (ahol a nagy nyelvi modellek még nem tartanak) a gépeknek is képessé kell válniuk erre a megkülönböztetésre, biztonsági megfontolásokból. (Lásd 2. ábra.) Az első két fázis vizsgálatához a klasszikus Turing-teszt is elegendő, míg a harmadik és negyedik fázis feltárásához fordított Turing-tesztekre van szükség.

Kutatási kérdések, kis léptékű kísérletek

Kutatásunkban három fő kérdést vizsgáltunk. Elsőként azt, hogy a jelenlegi nagy nyelvi modellek inkább a megtévesztésben vagy a felismerésben teljesítenek-e jobban. A teszteket tavasszal és nyáron futtattuk le, három fejlett és széles körben ismert nagy nyelvi modell alkalmazásával, amelyek nemcsak válaszadóként, hanem bírálóként is szerepeltek. Második kérdésünk az volt, hogy maguk a nagy nyelvi modellek alkalmasak-e arra, hogy a felismerési képességeik fejlesztésére használjuk őket. Végül arra is kerestük a választ, hogy kimutathatók-e teljesítménybeli különbségek az egyes AI-modellek és azok verziói között.

Kutatásunk egy háromfázisú, egyedülálló mini kísérletre épült, amelyben Turing-tesztet végeztünk összesen 12 ember résztvevő bevonásával. A három fázis egymásra épült: elsőként ember–ember, majd ember–AI, végül AI–AI beszélgetéseket vizsgáltunk. A többfázisú szerkezet újdonságot jelentett, és lehetővé tette, hogy külön rálássunk az egyes viszonyokra és teljesítményekre, valamint azok változására.

A beszélgetések a Turing-teszt úgynevezett „2-player setup” változata szerint zajlottak, vagyis a két szereplős (egy bíráló és egy válaszadó) modellt alkalmaztuk. Ez a megközelítés gyakori a hasonló kutatásokban, mivel könnyebben kivitelezhető, mint a klasszikus háromszereplős elrendezés. A vizsgálatban használt nagy nyelvi modellek a GPT-o1-mini, a GPT-4, a Claude 3.5 Sonnet és a Gemini 1.5 Pro voltak; a kutatás kezdetekor ezek számítottak a legfejlettebb és legszélesebb körben ismert rendszereknek.

A mindössze 12 emberi résztvevő komoly korlátot jelentett, ezért számos technikai finomítást kellett beépítenünk. Többek között külön programkódot alkalmaztunk annak megelőzésére, hogy a nagy nyelvi modellek azonnal, túl gyorsan válaszoljanak. A küszöbértéket – a szakirodalmat követve – 50%-ban határoztuk meg, és a beszélgetések időtartamát négy percben rögzítettük. A promptokat gondosan állítottuk össze, részletesen ismertetve a szabályokat, hogy a modellek mind bírálói, mind válaszadói szerepben megfelelően felkészültek legyenek.

Eredményeink szerint

  • mind az emberek, mind a nagy nyelvi modellek többnyire helyesen azonosították beszélgetőtársukat, amikor emberrel kommunikáltak.
  • Amikor azonban a válaszadó egy AI volt, mind az emberi, mind a gépi bírálók jellemzően hajlamosak voltak azt embernek tekinteni. A nagy nyelvi modellek ezen a területen különösen gyengén teljesítettek.

Ezen a ponton vált relevánssá második kutatási kérdésünk: fejleszthető-e a bírálói prompt oly módon, hogy jelentősen javítsa a nagy nyelvi modellek felismerési teljesítményét? Ennek megválaszolására magukat a nagy nyelvi modelleket használtuk fel a promptok továbbfejlesztésére. A folyamat során ismertettük velük a szabályokat, valamint betápláltuk az első körös beszélgetések átiratait is (3. ábra).

A modellek javaslatai strukturáltabbá és tartalmasabbá tették a promptot. A prompt fejlesztése és az előzetes tesztelés során a Claude teljesítménye kiemelkedett, ezért erre a modellre koncentráltunk. A 3.5-ös Sonnet verzió esetében a prompt fejlesztése nem hozott pozitív eredményt, sőt rontotta a teljesítményt. Ezzel szemben a 4-es verzióban jelentős javulást értünk el. Ezek a tesztek már csak gép-gép kommunikációt vizsgáltak, így a jövőben a fejlesztett promptot emberekkel folytatott beszélgetésekben is tesztelnünk kell.

A mai LLM-ek tehát átmennek a Turing-teszten – ezt mind közelmúltbeli szakirodalmi kutatások, mind saját vizsgálataink alátámasztják, azonban gyengék más LLM-ek felismerésében. Első pillantásra úgy tűnhet, hogy az LLM-ek jól teljesítenek, amikor embereket kell beazonosítaniuk, de ez egy torzítás eredménye: az "ember" válaszra hajlamosak.

Amikor csak gépek beszélgetnek egymással, átlagosan nyolcból hét esetben embernek ítélik beszélgetőpartnerüket.

Az emberek egyelőre még meggyőzőbben játsszák szerepüket, de előnyük valószínűleg egyre csökken. Mindez arra utal, hogy a gépek jobbak lesznek a tettetésben, mint a detektálásban. Kutatásunk arra is rámutat, hogy az LLM-ek detekciós képessége prompt fejlesztéssel javítható.

Társadalmi és etikai vonatkozások

A klasszikus sci-fi rajongói biztosan ismerik Asimov robotikájának három alaptörvényét:

  • a robotok ne ártsanak az embernek,
  • engedelmeskedjenek nekik,
  • és védjék saját létüket.

Ez egyben jogi hierarchia is: egyik törvény sem sértheti a felette állókat.

Mindhárom törvény érvényesülésének azonban alapfeltétele, hogy a robot – akár fordított Turing-tesztben, akár valós helyzetekben – meg tudja különböztetni az embert a géptől.

Javaslatunk ezért az, hogy a felismerés képessége megelőzze a tettetést. Ez váljon a fejlesztés alapelvévé, a robotika "nulladik törvényévé".

Ha ez az elv nem valósul meg, veszélybe kerül a bizalom: a fejlesztők között, egymás között, sőt, akár mesterséges intelligenciák között is. A nulladik törvény tehát egyben morális és biztonsági garanciát is jelentene.

Az implementáció elmulasztásának nemzeti és nemzetközi szintű, pénzügyi és katonai következményei is lehetnek. A kiberkockázatok a humanoid robotok szintjén is megjelenhetnek, és egy AI-fegyverkezési versenyen belül akár egy AI-tettetési fegyverkezési versennyel is szembe kell néznünk. Az ebből fakadó intézményi kihívások súlyos döntések meghozatalát tehetik szükségessé. Ezek dilemmákhoz vezethetnek mind az átláthatóság, mind az autonómia terén – jelentős politikai és filozófiai vonatkozásokkal.

Ezek az alapelvek, robotikai törvények már normatív jellegűek, és felvetik a kérdést: hogyan ültetjük át konszenzuális értékeinket – ha léteznek ilyenek – a gépekbe, és hogyan engedjük, hogy azok fejlesszék etikai tudásunkat? A valóság észlelése rendkívül szerteágazó filozófiai téma, amelyben a mesterséges konstruktivizmussal is számolnunk kell. Érdemes elgondolkodni azon is, hogy mit mér valójában a Turing-teszt: intelligenciát, tudatot vagy emberi mivoltot? Turing már 1950-es cikkében előrevetítette, hogy nem a megfelelő kérdéseket tesszük fel a gépekkel kapcsolatban – például azt, hogy "tudnak-e gondolkodni" –, ezért is alkotta meg ezt a tesztet.

Az, hogy nem tudjuk pontosan, mitől megy át valami vagy valaki a teszten, új kérdéseket vet fel az emberi lét és a tudat természetének megértésével kapcsolatban. Gödel nyomán a tudatnak is vannak megismerési korlátai, amelyek így fogalmazhatók meg: bármely kellően összetett és reflektív tudatos rendszer (például az emberi elme) számára léteznek olyan igazságok a saját tudatának természetéről, amelyeket a rendszer nem tud teljes mértékben megérteni vagy bizonyítani magának saját introspektív vagy kognitív képességeivel. Elgondolkodtató, hogy mindez mit jelent számunkra a mesterséges intelligencia korában és viszonyrendszerében.

Jelen írás egy folyamatban lévő EKOP-CORVINUS-24-3-008 által támogatott kutatás alapján született. Kutató- és szerzőtársaim Manran Zhu és Vásárhelyi Orsolya (Corvinus, Centre for Collective Learning).

Hajnal Zsófia az ELTE Közgazdaság- és Regionális Tudományi Kutatóközpont Világgazdasági Intézetének tudományos segédmunkatársa.

A cikk a szerző véleményét tükrözi, amely nem feltétlenül esik egybe a Portfolio szerkesztőségének álláspontjával.

A címlapkép illusztráció. Címlapkép forrása: Getty Images

