Kako statistika lahko zavaja

Je lahko zvišanje povprečne plače slaba novica? Lahko številka čevljev nakazuje matematične sposobnosti posameznika?
Fotografija: Shutterstock
Odpri galerijo
Shutterstock

Pomislite na anketo, katere rezultati bi kazali zelo močno povezanost številke noge in znanja matematike. Na dovolj velikem vzorcu bi skoraj brez izjem za vsakega sodelujočega veljalo, da večjo ko ima številko noge, bolje obvlada matematiko. Ali torej lahko sklepamo, da bo vaš kolega, ki ima zelo veliko nogo, odličen matematik?

Kaj pa, če izvemo, da je bila anketa narejena na osnovni šoli? Kjer je logično, da imajo starejši učenci povprečno večjo številko noge, hkrati pa tudi z vsakim letom bolje obvladajo matematiko. Statistika je čudovita dejavnost in veščina, zelo uporabna, ki pa jo žal tako v medsebojnih pogovorih kot v velikih političnih ali drugih prepričevanjih pogosto zasenčijo manj relevantni, a barviti anekdotični primeri (še posebno če pritiskajo še na čustvene tipke). Toda tudi statistika lahko zavaja, pa naj bo to namerno ali nenamerno.

Si Švedska zasluži zloglasno poimenovanje evropska prestolnica posilstev?

Napaka pri izbiranju vzorca je zelo pogosta, čeprav morda ne gre za tako osnovnošolsko napako kot v primeru številke noge in znanja matematike. Darrell Huff je v svoji knjigi opisal, kako je revija Literary Digest zagrešila tovrstno napako in kljub velikemu vzorcu vprašanih leta 1936 popolnoma napačno napovedala izide predsedniških volitev v ZDA. Revija se je ponašala z bogato zgodovino pravilnih predvolilnih napovedi, takrat pa je napovedala, da bo z veliko večino zmagal republikanski kandidat Alf Landon, nato pa je povsem izgubila kredibilnost, ko je na volilni dan roke zmagoslavno dvignil Franklin D. Roosevelt. Kako se jim je lahko primerilo, da so razposlali deset milijonov anket in tako zelo zgrešili? Huff pojasnjuje, da so zavozili prav pri izbiri vzorca. Ankete naj bi poslali svojim bralcem ter ljudem, katerih naslove so zbrali iz telefonskih imenikov. Toda osebe, ki so si leta 1936 lahko privoščile telefon ali naročnino na revijo, niso bile predstavnice tipičnih volivcev.

Shutterstock
Shutterstock

Neposrečene vizualne predstavitve

Tudi nekatere ankete pred predsedniškimi volitvami v Sloveniji niso ravno najbolje predstavile svojih ugotovitev. Vizualni učinek stolpca ali vodoravne palice, ki kaže podporo kandidatu, je zelo učinkovit, a morda ni najbolj posrečen pristop: v »palico« se vpiše ime kandidata, a ta del »palice« še ne predstavlja podpore, kot kaže primer na grafu »Podpora kandidatom«.

Podoben je tudi učinek, ko med grafičnimi elementi naredi največji vtis površina, mera, ki prikazuje podatke, pa je nekaj drugega. Grafika, ki bi prikazovala dva podatka o odstotku praznih nepremičnin – eden je dvakratnik drugega – za prikaz pa bi, na primer, uporabili dve hiši tako, da bi drugo sorazmerno povečali do dvakratne višine prve, bi bila zavajajoča. Površina druge hiše je precej večja kot dvakratnik prve in opazovalec bi dobil vtis o večji razliki, kot smo jo želeli ponazoriti.

Prav vidni vtis je tisto, kar pogosto vpliva, da določen podatek lahko dojamemo zelo različno. Zelo pomembno je, kako stisnjena ali razširjena je skala, ki jo uporabimo za graf. Pogost prijem, ki je pogosto smiseln, včasih nujen, včasih pa zavajajoč, je sprememba izhodišča na grafu. To pomeni, da se skala Y-osi ne začne z 0. Razlike so zato močno poudarjene, kar lahko ustvari napačen vtis. Prikaz istih podatkov na grafih »Primerjava letnih prihodkov« ima zelo različen učinek (in v primeru, ko se skala ne začne z 0, je tudi zavajajoč).

Zakaj ni nujno smiselno upoštevati nasvetov bogatašev?

Predvsem pri črtnih grafih je lahko odločitev, da se skala ne začne z 0, pravilna in ni nujno zavajajoča, odvisno od tematike, ki jo obravnavamo. Če so podatki v zelo velikih številkah, vsako majhno odstopanje pa je zelo pomembno, je smiselno, da je to ponazorjeno tudi v grafu s spremembo skale na Y-osi (zaželeno je, da se na to opozori oziroma na grafu označi). V nasprotnem primeru je lahko zavajajoče prav to, da skale ne spremenimo. Grafi so narejeni z namenom, da dobro prikažejo podatek, na katerega želimo opozoriti. Vzemimo preprost primer, ko bi na grafu želeli prikazati, kako se je bolniku spreminjala telesna temperatura med boleznijo. Ker je pri telesni temperaturi pomembna vsaka stopinja odstopanja, ni smiselno, da bi na grafu prikazali skalo od 0 do 50 (tako bi popolnoma zakrili spremembe), ampak je precej bolje, če skalo začnemo pri 36 stopinjah Celzija.

Zavajanje na veliko

Podjetja statistiko zelo rada uporabljajo – žal pa pogosto tudi zlorabljajo – v svojih oglasih. Tipičen primer so kozmetični ali higienski izdelki, pri katerih v televizijskih oglasih ali na velikih plakatih pogosto naletimo na trditve v slogu: »V enem mesecu 30 odstotkov manj gub na obrazu« ali »To zobno pasto priporoča 90 odstotkov stomatologov«. Pri tem pa ni navedenih drugih podatkov, če pa so, pa navadno kaj hitro pokažejo vsaj na zelo majhen vzorec. Ne glede na uporabljeno metodologijo merjenja gub, so izsledki bolj klavrni, če je za vzorec uporabljenih 10 ali 12 žensk. Pri majhnih vzorcih vsaka enota močno spremeni statistiko in tako zlahka beležimo velike spremembe, ki jih želimo razglasiti vsem. Pomeni tudi zelo preprosto ponavljanje poskusa, dokler nam eden od vzorcev ne da rezultata, ki smo ga želeli. Tudi podatki o tem, koliko stomatologov priporoča določeno zobno pasto, ne povedo veliko, če ne vemo niti kolikšen je bil vzorec vprašanih niti kako točno so bila vprašanja postavljena. Vprašalnik za stomatologe, ki jim daje na izbiro, kaj bolj priporočajo; umivanje z določeno zobno pasto, umivanje brez zobne paste ali neumivanje zob, bi dal zelo predvidljive, a tudi ničvredne rezultate. Bi bili pa idealni za navajanje (ali bolje rečeno zavajanje) v oglasih.

Shutterstock
Shutterstock

Višja plača je slaba novica?

Tudi pravilno zbrani podatki lahko zavajajo, če jih vzamemo iz konteksta. Če izvemo, da se je v Prekmurju konec leta 2009 opazno zvišala povprečna plača, je to prav gotovo dobra novica, mar ne? A tak osamljen podatek zlahka napačno interpretiramo. Vzroki za rast povprečne plače so žalostni: zvišala se je zaradi stečaja Mure in izgube služb mnogih delavk, ki so imele zelo nizke plače. Če prvemu podatku dodamo še drugega, da je bilo ob tej spremembi tudi 2700 delovnih mest manj, dobimo zelo drugačno sliko, kot smo jo imeli le ob podatku o plačah.

Shutterstock
Shutterstock

Bogataši in bojna letala

Pogosto lahko naletite na zgodbe bogatašev in njihove razlage, kako jim je uspelo obogateti, kar se servira kot recept in nasvet, kako ravnati, če želite doseči podobne uspehe. Bo ravnanje, ki je njih privedlo na vrh, učinkovito tudi pri vas? Kakšno napako bi pri takšnem razmišljanju zagrešili? Morda jo še bolje ponazarja primer iz druge svetovne vojne. Ker so bolj zavarovana letala manj okretna in je vsak poseg kompromis med okretnostjo in zavarovanostjo, so Američani začeli z letal, ki so se vračala z bojišč, beležiti mesta, kjer so bile sledi sovražnih strelov. S temi podatki so se odločali, katere dele letala je treba dodatno učvrstiti. Narisali so shemo letala in vrisali vse zadetke, ki so jih našli na letalih, izrisal pa se je očiten vzorec, kjer so bili zadetki koncentrirani in kje jih skoraj ni bilo. Poskušali so čim bolj učvrstiti mesta, ki so prejela največ zadetkov. A v svojih vrstah so imeli tudi odličnega matematika in logika Abraham Walda, ki je pogledal shemo in jih opozoril, da ravnajo popolnoma napačno. Prerisovanje zadetkov z letal, ki so se vrnila, zanemari ključni, manjkajoči del množice: tista, ki jih je sovražniku uspelo sestreliti. Američani temu lepo rečejo »survivorship bias«, po slovensko torej »preživetvena pristranskost«. Wald je menil, da morajo sklepati prav nasprotno; domneval je, da so zadetki letal verjetno dokaj enakomerno porazdeljeni in iz prerisanega vzorca zadetkov je sklepal, da letala zadetke na tista mesta lahko prenesejo, skrbele so ga bele lise, kjer niso imeli zabeleženih nobenih zadetkov. »To so mesta, kjer smo najranljivejši; če je letalo zadeto tam, se očitno ne vrne,« je trdil in predlagal, da je treba okrepiti prav te dele.

Enaka je napaka, ki jo zagrešimo ob prej omenjenem sklepanju o ravnanju, da obogatimo. Če za vzorec izberemo le zmagovalce, potem morda pridemo do napačnih sklepov. Za pravo oceno posameznega ravnanja bi morali proučiti tiste, ki so uporabili isti pristop, in nato pogledati, koliko od njih jih je obogatelo, koliko pa jih je žalostno propadlo. Če bi po prvotnem receptu gledali, kako so obogateli dobitniki iz iger na srečo, bi napačno sklepali, da je očitno najbolj smiselno ves denar vreči v igralnice in loterije.

Shutterstock
Shutterstock

Kako nevarni so trezni vozniki

Dve tretjini povzročiteljev prometnih nesreč je treznih! Lahko iz tega sklepamo, da je varneje voziti alkoholiziran kot trezen? Seveda ne, v tem primeru je vsakomur jasno, da je velika večina voznikov na cestah treznih, in če torej kar tretjino nesreč povzročijo alkoholizirani, je očitno, v kakšnem stanju je nevarneje voziti. A ista logična napaka v številnih trditvah ostane neopažena. »Imamo pol manj reklamacij kot vodilno podjetje v panogi!« je prav tako lahko zelo zavajajoča trditev, če govori o absolutnih številkah, omenjeno podjetje pa ima le 10 odstotkov toliko prometa kot vodilno. Taka zavajanja ali napačna sklepanja zaradi različne podlage so zelo pogosta in razen v redkih primerih je napaka popolnoma neopazna. Tako se je razširila trditev, ki se nenehno ponavlja: da Švedska nosi zloglasen naslov prestolnica posilstev. V resnici si je to nesrečno poimenovanje prislužila zaradi primerjanja jabolk in hrušk; Švedska namreč precej bolj široko opredeljuje, kaj šteje za posilstvo in spolno nadlegovanje, pri tem pa tudi drugače beleži tovrstne prestopke. Po svoji statistiki ima tako dva do trikrat več tovrstnih prestopkov kot večina drugih evropskih držav, a primerjave po enakih merilih so pokazale, da Švedska ne odstopa od drugih evropskih držav.

Statistični podatki so navadno zelo bogati s svojimi sporočili, a vsakič, ko nanje naletimo, jih je dobro jemati z zrnom soli. Kako so sestavljeni? Ali so relevantni? Morda že po krajšem premisleku ugotovimo, da so izbrani nenavadno selektivno, kar naj nam vzbudi skrb, da so šli skozi sito, ki je neugodne podatke raje zavrglo. Morda ne bomo znali vedno pravilno presoditi, kateri podatki so smiselni in kateri ne, a takšen kritičen pogled nam bo – statistično gledano – zelo izboljšal presojo.

Več iz te teme:

Več iz rubrike