A Központi Statisztikai Hivatal (KSH) stratégiájának fontos eleme, hogy a hivatalos statisztikák előállításához a leghatékonyabb, legmegfelelőbb eszközöket alkalmazza, összhangban a nemzeti és az európai statisztika gyakorlati kódexével. Ebben a törekvésben a mesterséges intelligencia (MI) és a gépi tanulás (ML – machine learning) technológiák egyre jelentősebb szerepet kapnak, méghozzá többféle területen is. Egyrészt támogatják a hivatal operatív működését, segítve a dolgozókat és a folyamatokat, másrészt kifejezetten a statisztika-előállítás specifikus feladataira is fejlesztenek és alkalmaznak MI- és ML-megoldásokat.
A modellezés különböző szerepkörökben jelenik meg a KSH munkájában. Pótolhat hiányos adatokat, teljeskörűsíthet részleges információkat, előrejelezhet idősoros adatokat, vagy szimulálhat különböző jelenségeket. A kapcsolási eljárásoknál hasonlóságot keresnek, klasszifikációnál pedig mintázatok és szabályok alapján sorolnak osztályokba. Ezek a módszerek használhatók validálásra és akár adatgyűjtés kiváltására is.
A modellezés minden esetben egyfajta kompromisszumkereséssel is jár, hiszen egyik modell sem tökéletes, de a céljainknak ettől még megfelelhetnek. A modellek lehetséges hasznosságát mindig a várható bizonytalanságukkal és a rájuk fordítandó erőforrásokkal együtt kell mérlegelni
– mondta a Portfolio-nak Jáger Viktor, a KSH Módszertani és innovációs főosztályának vezetője.
A szakember szerint a felhasználók részéről természetesen az az igény, hogy minél pontosabb, részletesebb és időszerűbb adatközlést kapjanak, miközben az adatok begyűjtésénél cél a válaszadói terhek alacsonyan tartása. Ez ugyanakkor a valóságban egy olyan optimumkeresési feladat, amelyben a tényezők negatív korrelációban állnak egymással – például minél hamarabb és minél kevesebb inputból jelenik meg egy statisztika, annál kevésbé várható el annak pontossága. Ezért kompromisszumos megoldásra van szükség. A modern technológiák a megbízhatóság és minőség fenntartása mellett segíthetnek optimalizálni és kitolni a határokat.
Mint minden adatalapú technológiánál, a KSH munkájában is érvényesül a "garbage in–garbage out" elv, vagyis a tanuló adat minősége felső korlátot jelent arra nézve, hogy egy MI-megoldás mennyire jól használható. Ez az elv átvihető általánosságban a statisztika előállítására is: minél jobb minőségű a bejövő adat, annál pontosabb és értékesebb információ állítható elő belőle. Sőt, kevesebb, de jobb minőségű adatból általában pontosabb becslés készíthető, mint sok, de rossz minőségű, megbízhatatlan adatból. Ezt jól példázza, hogy
egy európai statisztikai modellezési versenyt nemrég lineáris regresszióval nyertek meg – egy több mint százéves, alapvető módszerrel –, egyszerűen azért, mert jobb adatforrást találtak a jelenséghez, mint a többi csapat.
A mesterséges intelligencia használata mindemellett szigorú feltételekhez kötött. Adatvédelmi, információbiztonsági, jogi és etikai szempontokból is rengeteg követelménynek kell megfelelni. Az MI használatát, bevezetését és üzemeltetését számos EU-s és hazai jogszabály szabályozza, köztük az AI Act (2024/1689 rendelet), a GDPR, a Digital Services Act, a Digital Markets Act, a Cyber Resilience Act, valamint a NIS2 irányelv. Hazai környezetben pedig a Magyarország kiberbiztonságáról szóló 2024. évi LXIX. törvény, az információs önrendelkezési jogról és az információszabadságról szóló 2011. évi CXII. törvény, valamint több kormányrendelet és a NAIH állásfoglalásai is meghatározóak.
A gépi tanulás és a hagyományos statisztikai módszerek viszonyát tekintve fontos megjegyezni, hogy az ML nem minden esetben jobb – inkább másra jó.
A gépi tanulás különösen erős az előrejelzésben és mintázatkeresésben, főleg nagy, bonyolult adathalmazok esetén. A hagyományos statisztika viszont magyarázni is tud, nem csak prediktálni – és ez egy nemzeti statisztikai hivatal számára kulcsfontosságú.
Valójában a gépi tanulás matematika, amely ugyanazokra az alapelvekre épül, mint a klasszikus statisztika, csak más a fókusza és a célja.
A KSH-nál számos gyakorlati alkalmazása van a modellezési eljárásoknak. Ilyenek például a
- szimulációs, továbbvezetési feladatok, amelyek jellemzően idősorosak;
- a nem teljeskörű adatokból történő becslések;
- a klasszifikációs feladatok, mint például a nomenklatúrákba kódolások különböző típusú bemeneti adatok alapján;
- a web intelligence kutatások, amelyek a weben fellelhető információkat felderítik, kigyűjtik és rendszerezik, és ezáltal statisztikai célokra használhatóvá teszik;
- valamint a nowcasting jellegű feladatok, amikor korlátozott mennyiségű adatból kell becslést adni a jelenre vonatkozóan.
A KSH-nál végzett imputálási feladatoknál is sokféle módszert alkalmaznak. Például amikor kameraadatokból kellett forgalmat becsülni, de a kamerarendszer egyes elemei bizonyos időszakokra kiestek, a kamerák és úthálózatok közötti korrelációt (korrelációanalízis) és random forest imputálást (ML-módszer) kombináltak – ez jó példa a hagyományos és új statisztikai eljárások együttes alkalmazására. A kapcsolási feladatoknál, amikor különböző adatforrásokból származó adatokat kell egymáshoz rendelni vagy kiegészíteni, determinisztikus és valószínűségi kapcsolást, valamint ezek kombinációját is alkalmazzák. A cél minden esetben az értékesebb információhoz jutás és az adatszolgáltatói terhek mérséklése.
A KSH modellezési munkájában a legfontosabb a megfelelő módszertan kiválasztása, és általános szabály, hogy minél inkább bizonytalan a megoldandó feladat feltételrendszere, annál inkább érdemes egyszerűbb eszközökhöz nyúlni. A közeljövőben további kihívást jelent, hogy a statisztikai adatok direkt "felhasználóinak" többsége várhatóan gép lesz, ezért a nagy értékű adatkészleteket géppel olvasható formátumúvá kell alakítani és metaadatokkal teljeskörűen el kell látni. A hivatalnál ennek már az idei évtől próbálnak megfelelni.
A cikk megjelenését a KSH támogatta.
A címlapkép illusztráció. Címlapkép forrása: Getty Images
