
Visszatérő téma a magyar médiában, hogy vajon mennyire megbízhatóak a COVID-megbetegedésekkel kapcsolatos statisztikák. A kérdések egy része azzal kapcsolatos, hogy vajon a tényleges esetszámtól mennyire térhet el a valóság a jelenlegi tesztelési gyakorlat mellett. De egyesekben felmerült már az is, hogy vajon a hatóságok tényleg az általuk megismert számokat teszik-e közzé, vagy pedig kozmetikázzák azokat valamilyen oknál fogva.
Egy nemrég megjelent kutatás arra jutott, hogy az Oroszországban közölt COVID-19 esetszámok erős gyanúra adnak okot, mert a hivatalos számok nem követik a Benford-szabályt. Ahogy ennek a hátterét részletesen elmagyaráztuk, ez az összefüggés arról szól, hogy bizonyos természetes eredetű számoknál a kezdő számjegyek adott valószínűség szerint kellene, hogy előforduljanak. Például az 1-esek valószínűsége 30% körül kellene legyen, míg a 9-esek már kevesebb mint 5% gyakorisággal szabadna csak, hogy előforduljanak.
A Benford-szabály mára igen elterjedt eszközzé vált különféle csalások feltárásában, legyen az akár gazdasági, választási vagy bármi egyéb számokhoz köthető visszaélés. Sok esetben ugyanis tényleg képes kimutatni, hogy az érintett számok természetes folyamatokból származnak-e, vagy pedig emberek írták felül azokat önkényesen. De már most szögezzük azért le, hogy a Benford-szabály valójában egyáltalán nem egy tökéletes teszt. Sőt, szigorúan véve még hipotézis vizsgálatnak sem lehetne nevezni, mert nincs egy általánosan elfogadott érték, ami mentén el lehetne vetni, hogy mi követi azt és mi az, ami tényleg rendellenes.
A Benford-szabály pontossága
A közelmúltban egyes nem túl alapos közéleti lapokban például Joe Biden választási eredményei kapcsán merültek fel olyan állítások, hogy csalás látszik a Benford-szabály alapján. Noha valóban voltak olyan régiós eredmények, ahol a választási adatok nem követték a Benford-szabályt a legutóbbi amerikai elnökválasztáson, ezt csalásnak beállítani teljesen téves volt. Ahogy azt többen is feltárták, a Benford-szabály nem minden esetben érvényesül, és különösen akkor nem, ha a vizsgált számok nem ívelnek át több nagyságrenden, ahogy az az említett esetben is történt (túl apróra bontott körzetek).
Mielőtt tehát rátérnénk a magyar COVID-adatok elemzésére, le kell fektetnünk pár alappillért, hogy nagyjából mire számíthatunk. A szakirodalom alapján a Benford-szabály leginkább a következő körülmények megléte esetén alkalmazható:
- Nagy minta kell: 30-40 megfigyelés esetén nagyon könnyen téves kép tárulhat elénk, hiszen a véletlenül érkező új értékek jelentősen befolyásolhatják az eloszlást.
- Tág értéktartomány: amennyiben az előforduló értékek valami miatt be vannak korlátozva egy tartományba, akkor a Benford-szabály nem tud érvényesülni. Ilyen érték például az emberek testmagassága, IQ-ja, de előfordulhat ilyesmi még a gazdasági adatokban is, ha például valahol jóváhagyási limitek vannak jelen.
- Jobbra ferde eloszlás: A Benford-szabályt a leggyakrabban olyan adathalmazoknál figyelték meg, ahol az értékek például különféle szorzásokból erednek (mondjuk mennyiség szorozva az árral). Az ilyen számok között gyakran találni kiugró értékeket, és az eloszlásuk tipikusan logaritmikus. Esetükben gyakran látszik érvényesülni a Benford-szabály.
- Nincs emberi beavatkozás: az olyan számhalmazok, amiket emberek találnak ki, általában nem követik a Benford mintázatát. Ez az, ami sokszor elárulja az emberi manipulációt, feltéve, ha az előbbi feltételek egyébként teljesülnek.
A kumulatív COVID-esetszámokról alapvetően az feltételezhető, hogy az eloszlásuk jobbra ferde, sok kiugróan nagy szám fordulhat elő benne, és nincs határok közé szorítva a felvehető érték (oké, a teljes emberi populáció a határ, de azért az elég nagy). Normális esetben pedig azt gondolhatjuk, hogy emberi kitalációtól is mentesek ezek a számok, ha azokat őszintén rögzítik. A nagy minta és a sok nagyságrenden való átívelés viszont nem feltétlenül érvényesül az összes ország esetében. Magyarország esete ilyen szempontból érdekes lehet.
A napi új esetszám nálunk néhány ezer között ingadozik, míg a halálozási számok jelenleg 100 körül. A teljes esetszám valamivel 200 ezer fölött jár jelenleg, így feltételezésünk szerint ez utóbbi idősor változó értékei már bizonyosan alkalmasak lehetnek a Benford-szabály vizsgálatára. De persze majd az adatok eldöntik.
Egy módszer a számok hazugságvizsgálatára
Az általunk használt statisztikai adatok (JHU CSSE COVID-19 Data és az Átlátszó által közreadott megyei statisztikák) nyilvánosan elérhetőek, így az elemzésünk bárki által megismételhető. A módszertanunk Goodman (2016) ajánlásait követi, mely szerint a következő lépéseket hajtjuk végre:
- Az első számjegyek megfigyelt gyakoriságából kivonjuk a Benford-szabály szerinti elméleti gyakoriságokat
- Az eltérések négyzetének az összegét vesszük, majd gyököt vonunk (ezzel meghatározva a várt értéktől a geometriai távolságot).
- Normalizáljunk az eltéréseket a maximális távolsággal (1.03606), és ezt az értéket d-faktornak nevezzük el.
Ez a módszer így olyan eredményt fog adni, ahol a d-faktor nullás értéke a Benford-szabálynak való tökéletes megfelelést jelenti, míg az egyre nagyobb érték az attól való távolodást. Goodman (2016) javaslatára a 0,25-ös d-faktor értéket tekintjük mi is határértéknek, ami fölött már az adat potenciálisan manipuláltnak tekinthető. De persze tegyük hozzá, hogy csak a körülmények alapos vizsgálata esetében szabad mélyebb következtetéseket levonnunk.
A magyar számok górcső alatt
Az összes regisztrált COVID-esetek száma az adatunkban 204 708, és napi gyakoriságú idősorral állunk szemben. Az 1 és 9 közötti számjeggyel kezdődő megfigyeléseink száma összesen 290. Az 1-es számjegy előfordulási gyakorisága pedig 19,3%, ami lényegesen kevesebb az elméletileg várt 30,1%-nál.
A teljes négyzetösszeg kiszámítása után a d-faktorunk 0.2506, vagyis éppen hogy a fent meghatározott határérték fölé esik. Hoppá, ez alapján azt gondolhatnánk, hogy a magyar statisztikák nem követik rendesen a Benford-szabályt, de az elemzésünk során észrevettük, hogy a megfigyelések száma alacsony lehet. Több más országnál is előfordult ugyanis, hogy az adatok gyengén illeszkedtek, amíg kevés volt a megfigyelés.
Jól rávilágít erre, ha az összes országot tartalmazó teljes adatbázison végezzük el a számításunkat. Ilyenkor ugyanis a d-faktor már pusztán 0,16 lesz az esetszámok tekintetében és 0,06 a halálozásoknál. Az előbbi esetben az 1-es kezdőértékek gyakorisága 33,3% volt, míg az utóbbinál 30,5%, vagyis mindkettőnél nagyon közel az elvárthoz. Ez erősen arra utal, hogy tovább kell növelnünk a megfigyelésszámot, hogy valós eredményt kaphassunk.
Amennyiben a Magyarországon a megyei statisztikákat vesszük alapul, akkor a megfigyelésszámot 270-ről máris 4855-re tudjuk emelni, és ez nagyon lényeges előrelepésnek tekinthető.
A számjegyek előfordulási gyakorisága ebben az esetben pedig máris teljesen más képet mutat: az 1-esek 30,7%-os gyakorisággal fordulnak elő, ami egészen közel van a várthoz. A fenti módszertan szerint számolt d-faktorunk pedig ezen az adathalmazon már 0,051, ami azt jelenti, hogy nagyon közel vagyunk a Benford-szabály által előírt eloszláshoz. Ekkora d-faktort látunk a világszintű adatok összesített vizsgálatánál is, így tulajdonképpen kijelenthető, hogy ezek a számok semmiféle manipulációt nem sejtetnek a hazai COVID-esetszám kapcsán.
Felmerülhet még persze a kérdés, hogy mi van, ha talán eleve úgy manipulálják a számokat, hogy az átmenjen a Benford-teszten. De be kell látni, hogy ebben az esetben a megyei számokat folyamatosan manipulálniuk kéne, és ha tartani szeretnének valamiféle köszönő viszonyt a valósággal, akkor folyamatosan előre is kéne tudniuk jelezni, hogy hol milyen nagyságrendek fordulnak majd elő. Ez egy nagyon nehéz vállalkozásnak tűnik, ezért nem túl valószínű.
A mi módszereinkkel mindenesetre csak az jelenthető ki, hogy a magyar számok engedelmeskednek a Benford-szabálynak, ha a megyei adatokból indulunk ki. Bárminemű egyéb anomáliát (például utolsó számjegyek eltérő eloszlása) ezen a téren mi nem tapasztaltunk, pedig kifejezetten alaposan megnéztük.
Hazánk esetében nem tudunk róla, hogy más is végzett volna a közelmúltban hasonló kutatást a COVID-számok megbízhatóságáról. Nemzetközi szinten viszont több publikáció is foglalkoztt már a Benford-szabály és a COVID-statisztikák kapcsolatával. Korábban például jelentek már meg olyan tanulmányok, amik egyszer bizonyos országok COVID-számainak a megbízhatatlanságáról szóltak (lásd: Raul, 2020), máskor pedig éppen ellenkezőleg (lásd: Koch és Okamura, 2020). Ez arra utal, hogy a vizsgált időhorizont és a megfigyelések száma jelentősen befolyásolja az eredményeket. Mi is ezt találtuk, amikor pusztán az országos napi adatokat vizsgáltuk.
Ahogy Joe Biden régiós választási eredményeinél is láttuk, erősen oda kell figyelni, hogy mikor és hogyan alkalmazható a Benford-szabály. Csak azért, mert a valóságban valami nem pontosan követi az elméletet, még nem szabad azonnal kígyót-békát kiáltani. Magyarországon pedig egyelőre úgy tűnik, hogy amit sikerül felmérnie a hatóságoknak a COVID kapcsán, azt legalább őszintén teszik közzé.
Portugál elnök: Donald Trump orosz erőforrás
"Objektíven, az új amerikai vezetés stratégiai értelemben az Oroszországi Föderációnak kedvez."
Úgy néz ki, ez nem a bosszúról szól: lehet, hogy hatalmas hibát vétett Trump esküdt ellensége
Egyre súlyosabb az ügy.
Bemutatta a drónpilóták legrosszabb rémálmát a Gripen-vadászgépek gyártója: elkészült a Nimbrix
Költséghatékony megoldás.
Zelenszkij: Oroszország lényegében Donald Trump elnököt támadta meg
Jól látható, hogy Oroszország nem akar békét.
Fegyveres beavatkozásra készül Amerika – Már Trump elnök asztalán vannak a tervek
Már az ENSZ előtt van a katonai akció lehetősége.
Szétbombázták az oroszok a legendás Bayraktar drónokat gyártó üzemet
Úgy néz ki, nem lesz ukrajnai gyártás.
Otthon Start: rajtvonalhoz állt mindenki, megszólaltak a bankok
Mekkora robbanást hoz, és milyen versenyt generál a program?
Megjött a bejelentés: újraindult a kőolajtranzit a Barátság vezetéken Szlovákiába
Sztenderd üzemmódban.
Ha láthatnánk a fizetésedet!
Különösen álláshirdetéseknél, de úgy általában is felmerül, hogy milyen jó lenne átláthatóbbá tenni a fizetéseket. Ha nyíltan lehetne arról beszélni, hogy ki mennyit keres, amiből az i
United Parcel Service Inc. - elemzés
'23-ban már elemeztem, akkor még csak 14 éves osztalékemelés múltja volt, ez azóta 16-ra nőtt. Akkor az tetszett benne, hogy amit mondtak a következő évre, azt kb. hozták is. Na, ez most egy k
Hétfőn indul az Otthon Start! Élőben jövünk a legfrissebb információkkal
Szeptember 1-jén hivatalosan is elrajtol az Otthon Start program. Ezzel párhuzamosan a bankok is elindítják saját ajánlataikat - de pontosan hol és hogyan lehet igényelni, mik lesznek a konkrét fe
Megnyílt a föld alatti aranybánya: geotermia kamatmentes forrással
Képzeld el, hogy van egy technológia, amely egyszerre csökkenti a költségeidet, zöldíti a működésedet és még állami forrás is jár mellé - kamatmentesen, két évtizedre.

ESG és adózás: így kapcsolódik össze a társadalmi felelősségvállalás és a vállalati adományozás
Az elmúlt években egyre nagyobb figyelmet kapott az ESG, azaz a környezeti, társadalmi és vállalatirányítási szempontokat figyelembe vevő működés. Az ESG nem csupán trend vagy megfelelési k

Jelentősen hűtik a klímát az erdőtüzek
A Washingtoni Egyetem kutatóinak idén megjelent tanulmánya szerint a boreális erdőtüzek robbanásszerű növekedése nyomán jelentősen hűl a klíma.
Megroppan-e az amerikai-indiai szövetség a vámháború súlya alatt?
Az Egyesült Államok és India kapcsolata 2025 augusztusában látványos fordulatot vett. Washington döntése, amely magas vámot vezetett be az indiai export jelentős részére, nem pusztán gazdasá
Ha érdekelnek a befektetések és a gazdaság helyzete, hallgasd meg élő beszélgetésünket!
Mi várhat a világgazdaságra a geopolitikai konfliktusok korában, és mindebben milyen jövőkép rajzolódik ki Magyarország számára? Mi lesz a hatalmas költségvetési hiánnyal, a törékeny fori


Limit, Stop, vagy Piaci? Megbízások, amikkel nem lősz mellé!
Ismerd meg a tőzsdei megbízások világát, és tanulj meg profin navigálni a piacokon!
Bikák és Medvék: Kivel jobb haverkodni a tőzsdén?
Hogyan ismerd fel, hogy épp emelkedő (bull) vagy csökkenő (bear) piacon jársz? Megtanulhatod, mikor érdemes növelni a kockázatvállalást, és mikor jobb óvatosan hátrálni.
Velünk marad az árrésstop, de mit fizetünk érte valójában?
Utánajártunk, vajon mit mutatnak a számok és mi várható a következő hónapokban
Meddig fékezheti az inflációt az árrésstop?
Kozák Tamással, az OKSZ főtitkárával beszélgettünk.
Nagy pofont kaptak a boltok - Mi jön most?
Örülhetnek a vásárlók ennek?
