székek, stadion
Prof

Ez a különös jelenség leplezi le a választási csalásokat vagy a manipulált COVID-számokat

Egy különös oknál fogva az életünk során szembejövő számok jóval gyakrabban kezdődnek 1-essel, mint bármi mással. Nézzük csak meg a Portfolio.hu oldalát, vagy bármi más adatforrást és számoljuk meg az 1-essel kezdődő számokat, ha nem hisszük el. A jelenséget Benford-szabálynak keresztelték el, és azóta számos statisztikai, választási és gazdasági csalás feltárására vetették már be. Az alábbi cikkben bemutatjuk, hogy pontosan mit is mond ez a szabály, milyen körülmények között érvényesül, és amit talán a legnehezebb átadni, hogy pontosan miért is működik.

2020. november 29-én, egy szép vasárnap délutánon a Portfolio.hu címlapján 44 darab szám kezdődött 1-essel, 31 db 2-essel és 23 db 3-assal. Minél nagyobb egy szám, úgy tűnik, annál ritkábban fordul elő kezdő számjegyként - vonjuk le a következtetést a kávénkat kortyolgatva. Nem, egyelőre még nem őrültünk meg és nem is agyzsibbasztó számmisztikáról fogunk beszélni, hanem egy különös jelenségről: a Benford-szabályról.

Ez az a megfigyelés, amivel le lehetett volna buktatni a görög hatóságokat, amikor hamis makrogazdasági statisztikákkal léptek be az eurózónába. Ez az a módszer, ami elárulja, ha hazudnak a COVID-esetek számáról, vagy ha éppen elcsalják valahol a választást. Persze minden ilyen módszernek megvan a maga korlátja, de a Benford-szabály mégis egy olyan eszköz, amit ma már nem csak a tudományos kutatásokban, hanem a gyakorlati életben is előszeretettel használnak adatmanipulációk felderítésére.

Kezdjünk is bele!

A történetünk több mint 100 évvel ezelőttre nyúlik vissza, amikor is egy bizonyos Simon Newcomb nevű csillagász logaritmus táblázatokat lapozgatott és valami egészen furcsa jelenségre lett figyelmes. Feltűnt neki, hogy az első lapok (amik sorszáma 1-essel kezdődött) jóval megviseltebb voltak a többinél. A dolgot furcsállni kezdte, hiszen nem tűnik magától értetődőnek, hogy miért pont azokat a logaritmusokat felsoroló lapokat keressék fel a legtöbben.

A megfigyeléseit pontosan számszerűsítette is, majd 1881-ben pedig le is publikálta. Pechére ezt a furcsa jelenséget mégsem róla nevezték el: nála is bekövetkezett tehát a tudósok rémálma: Stigler eponimia törvénye. 1938-ban ugyanis egy Frank Benford nevű fizikus ismét rátalált erre a furcsa jelenségre. Észrevette, hogy a természetes megfigyelésekből eredő adatok első számjegyeinek a gyakorisága kissé furcsa.

Benford több mint 20 ezer számot jegyzett fel olyan különböző területekről, mint például a molekulák súlya, egy matematikai kézikönyv bejegyzései, vagy éppen 335 folyó méretének a leírásai. Ezek az igen különböző forrásokból jövő számok egyértelműen azt mutatták, hogy a első számjegyek gyakorisági eloszlása nem egyenletes.

Annak a valószínűsége, hogy egy véletlenül kiválasztott szám 1-essel kezdődik durván 30%, míg az, hogy 9-essel, már kevesebb mint 5%.

A jelenséget Benford az 1938-as publikációjában a rendellenes számok törvényének nevezte, és az írása „virális lett”, ha lehet ilyet mondani. Innentől kezdve pedig a legtöbben Benford-szabályként kezdtek hivatkozni erre a különös jelenségre, és csak az igazán jószívű tudósok jegyzik meg, hogy ez valójában a Newcomb-Benford-szabály.

Jegyezzük itt ugyanakkor meg, hogy a Benford-szabály (mi is már csak így fogunk rá hivatkozni, mert így lett közismert) azért nem minden esetben érvényesül. Vannak ugyanis olyan jól dokumentált körülmények, amik ennek a „szabálynak” a kibontakozását ellehetetlenítik. Amennyiben az előálló számok egy jól behatárolható sávban mozognak, mint amilyen például az emberek testmagassága vagy az IQ-ja, akkor máris elromlik a dolog. Viszont a legtöbb olyan természetesen előálló számnál, amely több nagyságrenden keresztül ível át, már általában érvényesül. Méghozzá számrendszertől függetlenül, ami elsőre meghökkentő lehet.

Ez hogyan lehetséges?

A Benford-szabály sokakból hitetlenkedést vált ki, még annak ellenére is, hogy az igen könnyen tesztelhető. A legtöbbünk alapgondolata ugyanis az, hogy amennyiben véletlen jelenségeket nézünk, akkor egyenlő valószínűséggel kellene előfordulnia 1-től 9-ig a számoknak, vagyis mindegyikükkel az esetek 11,1%-ában kellene találkoznunk. De ez nagyon gyakran még sincs így, és ennek egy speciális oka van, amit a következő példán magyarázunk el.

Képzeljünk el egy nagyon egyszerű tombolasorsolást, ahol kezdetben kilenc ajándék van csak és így kilenc számot húznak ki. Ilyenkor még nyilvánvalóan csak 11,1% esélyünk van rá, hogy 1-es lesz a kihúzott szám. De amint 10-re növeljük a sorszámokat, már kettő szám fog 1-essel kezdődni: az 1-es és a 10-es. Ekkor annak a valószínűsége, hogy 1-el kezdődik a kihúzott szám, hirtelen megugrik 20%-ra. Ahogy pedig felmegyünk 19-ig, úgy folyamatosan nő az 1-essel kezdődő számok valószínűsége, hogy aztán durván 58%-on tetőzzön.

A 20. tombolától kezdve viszont ismét csökkenni kezd az 1-essel kezdődő számok valószínűsége, 99-nél pedig már vissza is térünk a kiinduló 11,1%-os értékre. Pont ahonnan indultunk. Aztán amint nagyságrendet ugrunk, a 100-asok klubjába lépve újra megindul az emelkedés, és ez a történet így megy tovább a végtelenségig. Minden egyes tízes nagyságrend megugrása után emelkedésnek indul az 1-essel kezdődő számok valószínűsége, majd pedig csak fokozatosan tér vissza a következő ugrás bekövetkeztéig a 11,1%-hoz.

Ennek az ingadozásnak a megértése a kulcs a Benford-szabályhoz. A való életben ugyanis az történik, hogy a sok nagyságrenden átívelő véletlenszerű számok bárhol lehetnek, és ezért ki kell átlagolnunk valamiképpen ezt az ingadozó valószínűséget.

E fenti számítás általános formájához pusztán a logaritmusszámítást kell ismernünk (amit ahogy korábban már megírtuk: az agyunk zsigerből tud). A formula a következő egy d-vel jelölt kezdő számjegyre:

benford-szabaly

10-es alapú logartimust véve könnyen kiszámolható, hogy az 1-essel kezdődő számok gyakorisága 30,1% körül lesz, míg a 9-eseké 4,6% körül. Fontos még hozzátenni, hogy az újabbnál újabb kutatások sorra megerősítették a Benford-szabály érvényességét a legkülönbözőbb adatforrásokon alapulva. Az is kiderült továbbá, hogy nem feltétlenül kell az adatoknak sok nagyságrenden átívelnie, ha azok egymástól különböző forrásokból származnak (vagyis véletlenszerű, hogy milyen az eloszlásuk).

A számok nem hazudnak

Ez mind szép és jó, de vajon mi ennek az egésznek a gyakorlati haszna? Nos, a válasz az, hogy ez a jelenség igencsak hasznos eszköz lehet arra, hogy „hazugságvizsgálat” alá helyezzünk társadalmi vagy gazdasági mutatókat.

A hétköznapi élet során előálló statisztikák és számszerű adatok ugyanis nagyon sok esetben megfelelnek a Benford-szabály minimum követelményeinek, más szóval: ezek a számok mind a fentiekben előírt gyakoriságok szerint kell, hogy megjelenjenek. Amennyiben mégsem így találjuk, akkor feltételezhető, hogy azokat valaki kézzel manipulálta.

Így történt például a görögök eurózónába való csatlakozásakor is, ahol is a makrogazdasági statisztikákról derült ki (késve), hogy azok valamilyen különös oknál fogva nem mentek át a Benford-teszten. De ugyanezt a módszert vetették be számos gazdasági csalás vizsgálatánál is, mint amilyen például az elhíresült Enron-botrány volt.

Az elmúlt időszakban pedig választások tisztaságára, illetve a COVID-19-ről közölt adatok ellenőrzésére is bevetették a Benford-szabályt, amiről később még külön beszélni fogunk itt a Portfolio Prof hasábjain.

koronavírus 3D dimenzió
putyintelefon
pfizervakcina
dmker
Friss hírek TÖBB FRISS HÍR
Online kurzus
Akár 100 000 Ft-tal elkezdhető, hosszú távú megtakarítási módszer.
A tőzsdei könyv
Útmutató, amely piaci pánikok esetén is használható.
Portfolio hírlevél
Ne maradjon le a friss hírekről!
Iratkozzon fel megújult, mobilbarát
hírleveleinkre és járjon mindenki előtt.

Kiadó raktárak és logisztikai központok

A legmodernebb ipari és logisztikai központok kínálata egy helyen

Infostart.hu

Magyar Nemzeti Bank pályázatot hirdet jogász munkakör betöltésére

Magyar Nemzeti Bank pályázatot hirdet jogász munkakör betöltésére
mosogep belseje