A Központi Statisztikai Hivatal (KSH) stratégiájának fontos eleme, hogy a hivatalos statisztikák előállításához a leghatékonyabb, legmegfelelőbb eszközöket alkalmazza, összhangban a nemzeti és az európai statisztika gyakorlati kódexével. Ebben a törekvésben a mesterséges intelligencia (MI) és a gépi tanulás (ML – machine learning) technológiák egyre jelentősebb szerepet kapnak, méghozzá többféle területen is. Egyrészt támogatják a hivatal operatív működését, segítve a dolgozókat és a folyamatokat, másrészt kifejezetten a statisztika-előállítás specifikus feladataira is fejlesztenek és alkalmaznak MI- és ML-megoldásokat.
A modellezés különböző szerepkörökben jelenik meg a KSH munkájában. Pótolhat hiányos adatokat, teljeskörűsíthet részleges információkat, előrejelezhet idősoros adatokat, vagy szimulálhat különböző jelenségeket. A kapcsolási eljárásoknál hasonlóságot keresnek, klasszifikációnál pedig mintázatok és szabályok alapján sorolnak osztályokba. Ezek a módszerek használhatók validálásra és akár adatgyűjtés kiváltására is.
A modellezés minden esetben egyfajta kompromisszumkereséssel is jár, hiszen egyik modell sem tökéletes, de a céljainknak ettől még megfelelhetnek. A modellek lehetséges hasznosságát mindig a várható bizonytalanságukkal és a rájuk fordítandó erőforrásokkal együtt kell mérlegelni
– mondta a Portfolio-nak Jáger Viktor, a KSH Módszertani és innovációs főosztályának vezetője.
A szakember szerint a felhasználók részéről természetesen az az igény, hogy minél pontosabb, részletesebb és időszerűbb adatközlést kapjanak, miközben az adatok begyűjtésénél cél a válaszadói terhek alacsonyan tartása. Ez ugyanakkor a valóságban egy olyan optimumkeresési feladat, amelyben a tényezők negatív korrelációban állnak egymással – például minél hamarabb és minél kevesebb inputból jelenik meg egy statisztika, annál kevésbé várható el annak pontossága. Ezért kompromisszumos megoldásra van szükség. A modern technológiák a megbízhatóság és minőség fenntartása mellett segíthetnek optimalizálni és kitolni a határokat.

Mint minden adatalapú technológiánál, a KSH munkájában is érvényesül a "garbage in–garbage out" elv, vagyis a tanuló adat minősége felső korlátot jelent arra nézve, hogy egy MI-megoldás mennyire jól használható. Ez az elv átvihető általánosságban a statisztika előállítására is: minél jobb minőségű a bejövő adat, annál pontosabb és értékesebb információ állítható elő belőle. Sőt, kevesebb, de jobb minőségű adatból általában pontosabb becslés készíthető, mint sok, de rossz minőségű, megbízhatatlan adatból. Ezt jól példázza, hogy
egy európai statisztikai modellezési versenyt nemrég lineáris regresszióval nyertek meg – egy több mint százéves, alapvető módszerrel –, egyszerűen azért, mert jobb adatforrást találtak a jelenséghez, mint a többi csapat.
A mesterséges intelligencia használata mindemellett szigorú feltételekhez kötött. Adatvédelmi, információbiztonsági, jogi és etikai szempontokból is rengeteg követelménynek kell megfelelni. Az MI használatát, bevezetését és üzemeltetését számos EU-s és hazai jogszabály szabályozza, köztük az AI Act (2024/1689 rendelet), a GDPR, a Digital Services Act, a Digital Markets Act, a Cyber Resilience Act, valamint a NIS2 irányelv. Hazai környezetben pedig a Magyarország kiberbiztonságáról szóló 2024. évi LXIX. törvény, az információs önrendelkezési jogról és az információszabadságról szóló 2011. évi CXII. törvény, valamint több kormányrendelet és a NAIH állásfoglalásai is meghatározóak.
A gépi tanulás és a hagyományos statisztikai módszerek viszonyát tekintve fontos megjegyezni, hogy az ML nem minden esetben jobb – inkább másra jó.
A gépi tanulás különösen erős az előrejelzésben és mintázatkeresésben, főleg nagy, bonyolult adathalmazok esetén. A hagyományos statisztika viszont magyarázni is tud, nem csak prediktálni – és ez egy nemzeti statisztikai hivatal számára kulcsfontosságú.
Valójában a gépi tanulás matematika, amely ugyanazokra az alapelvekre épül, mint a klasszikus statisztika, csak más a fókusza és a célja.
A KSH-nál számos gyakorlati alkalmazása van a modellezési eljárásoknak. Ilyenek például a
- szimulációs, továbbvezetési feladatok, amelyek jellemzően idősorosak;
- a nem teljeskörű adatokból történő becslések;
- a klasszifikációs feladatok, mint például a nomenklatúrákba kódolások különböző típusú bemeneti adatok alapján;
- a web intelligence kutatások, amelyek a weben fellelhető információkat felderítik, kigyűjtik és rendszerezik, és ezáltal statisztikai célokra használhatóvá teszik;
- valamint a nowcasting jellegű feladatok, amikor korlátozott mennyiségű adatból kell becslést adni a jelenre vonatkozóan.
A KSH-nál végzett imputálási feladatoknál is sokféle módszert alkalmaznak. Például amikor kameraadatokból kellett forgalmat becsülni, de a kamerarendszer egyes elemei bizonyos időszakokra kiestek, a kamerák és úthálózatok közötti korrelációt (korrelációanalízis) és random forest imputálást (ML-módszer) kombináltak – ez jó példa a hagyományos és új statisztikai eljárások együttes alkalmazására. A kapcsolási feladatoknál, amikor különböző adatforrásokból származó adatokat kell egymáshoz rendelni vagy kiegészíteni, determinisztikus és valószínűségi kapcsolást, valamint ezek kombinációját is alkalmazzák. A cél minden esetben az értékesebb információhoz jutás és az adatszolgáltatói terhek mérséklése.
A KSH modellezési munkájában a legfontosabb a megfelelő módszertan kiválasztása, és általános szabály, hogy minél inkább bizonytalan a megoldandó feladat feltételrendszere, annál inkább érdemes egyszerűbb eszközökhöz nyúlni. A közeljövőben további kihívást jelent, hogy a statisztikai adatok direkt "felhasználóinak" többsége várhatóan gép lesz, ezért a nagy értékű adatkészleteket géppel olvasható formátumúvá kell alakítani és metaadatokkal teljeskörűen el kell látni. A hivatalnál ennek már az idei évtől próbálnak megfelelni.
A cikk megjelenését a KSH támogatta.
A címlapkép illusztráció. Címlapkép forrása: Getty Images
Sokkoló részletek derültek ki az évszázad legnagyobb európai áramszünetéről
A tökéletes vihar, amely sötétségbe borította Ibériát.
Életbe lépett a vészforgatókönyv: csúcson üzemel a kulcsfontosságú kőolajvezeték
Ez sem biztos, hogy elég lesz.
Atomkatasztrófa fenyeget a Közel-Keleten: megszólalt a Roszatom vezetője
Egyre romlik a helyet az orosz vállalat vezére szerint.
Fájdalmas térképet közöltek Magyarországról: ebből még nagy probléma lehet
Nem javul a helyzet az ország jelentős részén.
Így rajzolta át az iráni háború a globális gazdasági térképet
Európát nemcsak az energiaárak növekedése, hanem a beszerzési források szűkülése is sújtja.
Coffee badging és minimál hétfő? – Trendi buzzwordök, amelyek fontos munkaerőpiaci jelenségekre mutatnak rá
Ilyen kifejezés még a csendes felmondás, a lazy girl job vagy a büntető előléptetés is.
Szavazz ránk, hátha nyerünk a Klasszison
Idén is indul a HOLD a Klasszis díjátadón, három kategóriában tudsz ránk szavazni: a legjobb alapkezelő, a legjobb portfóliómenedzser és a legjobb feltörekvő portfóliómenedzser esetén... T
Sport és ESG: Hogyan (ne) zöldítsük a profi sportot
Az ESG ma már a profi sportban is megkerülhetetlen hívószó, de a hangzatos vállalások mögött nagyon eltérő valóság húzódik meg. Duha Bence cikke azt mutatja meg, hol látszik érdemi előrel
Meta - kereskedés
2023-ban volt utoljára Metám, akkor adtam el, mert egy elég rossz belépő után majd egy évig tartottam, hogy egy kis haszonnal végre ki tudjak szállni belőle. Utána még ment vagy 200%-ot, szóva
10 éves csúcson a munkanélküliség. Hogyan védekezhetnek a magyarok a jövedelmük kiesése ellen?
A KSH statisztikái alapján a munkanélküliségi ráta 4,9 százalékra emelkedett. Ilyen magas értéket utoljára 216 tavaszán lehetett látni. De mit tehetnek azok, akik félnek a munkahelyük elvesz
Reklámadó 2026-tól: kiket érint, és milyen kötelezettségek térnek vissza?
A 2026-os év adóváltozásainak egyik meglepetése, hogy a jelenleg még felfüggesztés alatt álló reklámadó július 1-jétől ismét hatályba lép. A reklámadó újbóli alkalmazása nemcsak a kl
Tőzsdei őslények: a túlélés tanulságai
Betekintés egy panoptikumba: az adásban három őskövület, Szabó László, Korányi G. Tamás és Karagich Isvtán beszélget egy negyedik őskövület társaságában a korai sikertörténeteikről
Élelmezési kérdés is lehet a korallzátonyok helyreállítása
A világ népessége mára meghaladta a 8,3 milliárd főt, miközben sok régióban továbbra is komoly problémát jelent az alultápláltság. Az élelmiszerforrások egyre sz
Háborús energiaársokk: miért reagálhat másként a Fed és az EKB?
A közel-keleti konfliktus nyomán megugró olaj- és gázárak nemcsak az inflációs pályát, hanem a kamatvárakozásokat is újraírhatják. Vályi Bence azt mutatja be, miért vezethet ugyanaz az ene
Bikák és Medvék: Kivel jobb haverkodni a tőzsdén?
Hogyan ismerd fel, hogy épp emelkedő (bull) vagy csökkenő (bear) piacon jársz? Megtanulhatod, mikor érdemes növelni a kockázatvállalást, és mikor jobb óvatosan hátrálni.
Tőzsdézz a világ legnagyobb piacain: Kezdő útmutató
Bemutatjuk, merre érdemes elindulni, ha vonzanak a nemzetközi piacok, de még nem tudod, hogyan vágj bele a tőzsdézésbe.
10 éve nem láttunk ilyen pocsék adatot a magyar gazdaságban
Túl vagyunk a foglalkoztatási csúcson.
„Ez jogilag nonszensz” – Mit csinál Magyarország az ukrajnai gázvezetékekkel?
Több kérdést is felvet a friss rendeletcsomag.
Concorde: Ezek lehetnek a legjobb befektetési stratégiák 2026-ban
Nagy Bertalan privátbanki üzletfejlesztési igazgatót kérdeztük.

