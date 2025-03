Az AI-modellek piacán különösen nagy a verseny az egyes megoldások között. A gyártók sorra adják ki a korábbiaknál erősebb nagy nyelvi modelljeiket, amelyek erejét különféle benchmarkok segítségével mérik. Néha azonban ezek a tesztek nehezen értelmezhető kritériumok mentén határozzák meg egy-egy új modell erejét, a pontszámok ezáltal nehezen fordíthatóak le valós problémamegoldó képességre. A PeakX csütörtöki sajtóeseményén a ma legnépszerűbbnek számító AI-modellek erejét, Magyarország oktatási kontextusában tesztelték le, az országos iskolai kompetenciamérések feladatainak segítségével. Bár a mesterséges intelligencia jelenleg az egyik legfontosabb technológiai iparágnak számít és nagy fejlődésen mentek keresztül a különféle nyelvi modellek, a valós oktatási környezetben felmerülő problémákkal gyakran még mindig meggyűlik a bajuk.

Az AI-benchmarkok jó viszonyítási alapok lehetnek, de nem a valós életbeli problémákra fókuszálnak

Amikor egy gyártó piacra dobja legújabb AI-modelljét, a leggyakrabban felmerülő kérdés általában, hogy az adott modellek hogyan teljesítenek más fejlesztők termékeihez képest a különböző feladatok megoldása terén. Ezen összehasonlítások során a modellek erejét különféle benchmarkok segítségével mérik össze, amelyek különféle tudományterületekről származó feladatokkal tesztelik azok képességeit.

Ezen tesztekkel szemben azonban számos kritika hozható fel. Sajtos István, a PeakX Innovációs igazgatója a vállalat csütörtöki sajtóeseményén elmondta, hogy szerintük a legtöbb ilyen benchmark "laborkörülmények között" képes csak tesztelni a modellek képességeit, nem a valós, mindennapi problémák esetében. Ezen felül, szerinte azért is érdemes fenntartásokkal kezelni ezeket a teszteket, mert akár az is előfordulhat, hogy egyes modellek tanuló adatbázisában már a benchmarkok tesztkérdéseinek válaszai is szerepelhetnek.

A vezető AI-modellek teljesítménye a piacon legelterjedtebb benchmarkok mérései alapján. Kép forrása: PeakX

Hogyan teljesítenek az AI-modellek a magyar oktatásban is felmerülő problémák terén?

A PeakX egy az eseményen bemutatott kísérlettel próbálta meg más megközelítésből mérni a modellek teljesítményét; a vezető AI-fejlesztők modelljeit a magyar közoktatásban a 6., 8. és 10. osztályos tanulók körében végzett kompetenciamérési feladatsorok kérdéseivel tesztelték le.

A vállalat előzetes hipotézise szerint

mivel a kompetenciatesztek jellemzően nem a tankönyvi tudását mérik a diákoknak, hanem a tananyagon alapuló, önálló gondolkodást igénylő feladatokat tartalmaznak, képesek lehetnek az AI-modellek képességeit valós, hétköznapokban is előforduló feladatokban mérni.

Szerintük, egyes modellek nem mérhetőek pusztán benchmarkokkal, ugyanis azok a komplexebb, emberek számára is gondolkodást igénylő feladatokban gyakran elakadnak.

A valós időben lefuttatott kísérlet során egy a PeakX által kifejezetten arra a célra kifejlesztett AI-ügynök (agent) adott meg feladatokat az összes vizsgált modellnek a kompetenciamérési feladatsorok 5 témakörében (matematika, szövegértés, történelem, természettudomány és digitális kultúra). Ezt követően a modellek válaszait egy másik, AI-ügynök értelmezte

A tesztek során a Peak saját kompetenciatesztjével

az OpenAI ,

, az Antrophic ,

, az Elon Musk által tulajdonolt xAI ,

, a Google ,

, valamint a francia Mistral AI-modelljeit hasonlították össze.

Egyes AI-szolgáltatók számszerűsített teljesítménye a kompetenciafeladatok terén. Kép forrása: PeakX

A teszt során a PeakX százalékos formában adta meg, hogy egyes modellek milyen pontossággal válaszoltak a kompetenciamérési feladatsorok kérdéseire. Ezen felül a tesztek azt is megmutatták, hogy egyes modellek milyen költségek mellett és mennyi idő alatt voltak képesek megoldani a problémákat.

A végeredmények tekintetében elmondható, hogy a tesztek győztese az OpenAI O1-es modellje volt szinte az összes témában.

A kaliforniai gyártó modellje a "reasoning modellek" közé tartozik, amely azt jelenti, hogy a rendszer a válaszadás előtt több ideig gondolkodik a megoldáson ezáltal képes a bonyolultabb feladatok végiggondolására is. Ez nagy előnyt jelent különösen a matematikai feladatok esetén.

Kép forrása: PeakX

Említésre méltó még a teszteredmények alapján az Antropic Claude Sonnet 3.7-es modellje is, amely az O1 eredményeitől nem maradt el számottevő mértékben, azonban az átlagköltések tekintetében jóval hatékonyabban volt képes választ adni a kérdésekre.

A vállalat közleménye szerint a többi modell jelentős megkötésekkel alkalmazhatóak csak a komplexebb problémák terén. Az xAI Grok2 modellje például rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített. A Google Gemini 2.0 kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt. Az elmúlt időszakban jelentős figyelmet kapó kínai DeepSeek modelljei ugyan olcsók és gyorsak, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, így a kompetenciamérés képi feladataival nehezen birkózik meg.

A vállalat szerint a költséghatékonyság fontos szempont a modellek alkalmazhatósága terén; bizonyos feladatok esetén még a modell összesített tudásánál is fontosabb tényező lehet.

A tesztek alapján Sajtos István elmondta, hogy az AI-modellek alkalmazása alapvetően a

a humán intelligenciából képes kihozni a legtöbb potenciált, de nem helyettesíti teljes mértékben az emberi gondolkodást.

Integrált modellek vállalati környezetben

A PeakX vezetője a teszteket követően arra is rávilágott, hogy vállalati környezetben ugyan sok felhasználási területe mutatkozik meg az AI-modelleknek, a rendszerek integrációját számos akadály nehezíti. Ezek közül az egyik legnagyobb, hogy még mindig kevés a bizalom az AI-ban és az egyre növekvő AI iparágban még mindig kevés a hozzáértő szakember.

Problémás továbbá még, hogy a modelleket fix adatbázisokon tanítják, amely nem biztos, hogy egyes konkrét, vállalatokat érintő problémákra képes választ adni, egyes esetben pedig a modell akár légből kapott válaszokat is adhat. Az aggályok megoldására a PeakX a RAG (Retrieval Augmented Generation) megközelítést alkalmazza, amellyel a már említett nagy nyelvi modelleket (például az OpenAI termékeit) alapul véve képesek olyan AI-rendszereket létrehozni, amelyek lekorlátozzák a nagy nyelvi modellek képességeit, hogy az csak a megadott eszköztár és háttéranyag segítségével adjon megoldást a problémákra.

Ennélfogva, ha a rendszer olyan kérdést kap, amelynek helyes megválaszolásához nincs megfelelő tudása, azokra a modell egyszerűen azt a választ adja, hogy nem képes rá válaszolni. Ha azonban megvan hozzá a megfelelő tudása, akkor a legoptimálisabb eszközök segítségével oldja meg a problémát.

A címlapkép illusztráció. Címlapkép forrása: Getty Images