Jedna z najfascinujúcejších skutočností na svete okolo nás je to, že sa o ňom vôbec dá niečo povedať. Napríklad ak veľmi dobre vieme, ako vyzerá dnes, môžeme celkom presne predpovedať, ako bude vyzerať zajtra. Tomu hovoríme fyzika. No niečo sa dá povedať aj o situáciách, o ktorých máme neúplné informácie. A tomu sa hovorí štatistika.
Predstavte si, že ste na expedícii v amazonskom pralese a študujete papagáje. Každý deň objavujete nové druhy, niektoré vidíte potom znovu. Po čase smutní odchádzate, lebo prales toho skrýva ešte veľa nepoznaného a vy neviete, kedy a či vôbec sa vrátite. No z vašich poznámok je možné celkom dobre odhadnúť, koľko druhov papagájov ste ešte nevideli. Je prirodzené očakávať, že prvý deň pozorujete veľmi veľa nového. Potom postupne objavíte menej a menej nových druhov. A z toho, ako ich počet klesá, sa dá usúdiť, kedy by ste už nové druhy nenachádzali. Už chýba iba mať možnosť ísť si túto predpoveď overiť.
Nemecký tankový problém
O čosi jednoduchšia verzia podobného problému sa udiala počas druhej svetovej vojny. Pre Spojencov bolo veľmi dôležité vedieť, koľko majú nacisti tankov. To môžeme zistiť tak, že do Nemecka pošleme špiónov, ktorí budú zbierať informácie. Z nich nakoniec vyvodíme počet vyrobených tankov. Tiež vieme, že nepriateľské tanky, ktoré sa nám dostali do rúk, majú sériové čísla. Ak idú čísla zaradom od jednotky, tak je jasné, že nepriateľ má aspoň toľko tankov, ako je najvyššie zachytené číslo. Je však málo pravdepodobné, že by sme narazili práve na posledný vyrobený tank. Ak je naša vzorka naozaj náhodná, to, koľko tankov nad týmto maximom existuje, môžeme odhadnúť pomocou zvyšných tankov.
Ako? Pozrieme sa na medzery medzi číslami v našej sade a uvažujeme tak, že medzera medzi skutočne najvyšším sériovým číslom a najvyšším, ktoré sme videli, je taká istá ako priemerná medzera medzi číslami v našej vzorke. Tu je ako príklad sedem čísel: 52, 66, 82, 181, 204, 227, 236. Viete odhadnúť, z akej sady boli vybrané? Uvedený postup prinesie číslo približne 270, pričom v skutočnosti som nechal čísla náhodne vygenerovať z čísel po 250. Vidíte, v čom je problém tejto sady čísel? Prečo je náš odhad nadhodnotený?
Tento postup je v určitom zmysle optimálny a najpresnejší, má najmenšiu varianciu medzi nevychýlenými odhadmi. Predpokladá sa pri ňom, že sériové čísla sú skutočne náhodné, je ich rozumne veľa, ale všetkých tankov je oveľa viac a že výrobcovia s vami nehrajú žiadne hry šifrovaním čísel. Možno vás neprekvapí, že odhad zo sériových čísel poskytol v reálnom prípade oveľa lepšie číslo ako špionáž. Existujú rôzne verzie tejto historky, všetky majú spoločné toto: špionážny odhad približne 1 500 nových tankov za mesiac, štatistický asi 250. Po vojne sa zo záznamov z nemeckých tovární podarilo získať presné číslo, ktoré bolo iba o jeden tank iné ako štatistický odhad. Úplná mágia.
Veľmi nepravdepodobný výsledok
Existujú sofistikovanejšie metódy, ktorými dokážeme lepšie odhadnúť, keď niektorý z predpokladov nie je splnený alebo je pre nás dôležité niečo iné ako variancia výsledku, prípadne máme nejakú špeciálnu informáciu o probléme. Čo napríklad robiť, ak máme k dispozícii iba jeden tank? Svet je plný prípadov, keď sa k viac ako jednému meraniu nevieme dostať.
Jeden nedávny sa udial vo Venezuele. Konali sa tam prezidentské voľby a na výsledkoch hlasovania bolo veľmi zvláštne, že počty hlasov pre dvoch hlavných kandidátov boli na jeden hlas presne také, aby dávali okrúhle percentuálne zisky. Analýzou toho, aká je pravdepodobnosť takého výsledku, získame číslo asi 1 : 100 000 000. Otázne je, ako veľmi malá pravdepodobnosť to je, lebo nejako to dopadnúť muselo a prečo nie práve takto. No história politiky vo Venezuele naznačuje, že všetko nemuselo byť v poriadku a v tom prípade je taký výsledok naozaj málo pravdepodobný. Ako nepriestrelný dôkaz volebného podvodu by to asi pred súdom neprešlo, ale je to určite dôvod posvietiť si na voľby.
Aké je z toho ponaučenie? Svet je pekný, matematika je silná. A preto je podvádzanie ťažké, čo je druhý najlepší dôvod, prečo to nerobiť.
Juraj Tekel
Fakulta matematiky, fyziky a informatiky
Univerzita Komenského v Bratislave
Viac podobných článkov nájdete na stránke vedator.space. Vedátora môžete sledovať aj prostredníctvom bezplatnej mobilnej aplikácie.