Miks Andrus Veerpalu siis ikkagi õigeks mõisteti? 

Andrus Veerpalu mõisteti dopingusaagas õigeks. Miks? Aga sellepärast, et polnud piisavalt alust arvata, et kasvuhormooni testi piirmäärad oleksid õiged. Aga mis asi see piirmäär siis õigupoolest on? Ja mis olid need argumendid, miks Rahvusvaheline Spordiarbitraaž (CAS) testi piirmäärade paikapidavusse ei usu?

Väited kasvuhormooni testi ja kohtuotsuse kohta põhinevad 75-leheküljelisel CASi raportil, kõik joonised on aga illustratiivsed ja põhinevad genereeritud (suvalistel) andmetel. Lisaks küsisin suurepäraselt biostatistikult, Veerpalu teadlastetiimi liikmelt Krista Fischerilt, kas olen kohtuotsusest õigesti aru saanud.

Kuidas koostatakse statistilist testi?
1. Defineerime hüpoteesid

Esimese sammuna statistilise testi koostamisel sõnastatakse hüpoteesid, mille paikapidavuses soovitakse veenduda. Kuna dopingutesti eesmärgiks on kontrollida, kas sportlane on patustanud, on nendeks hüpoteesideks järgmised kaks väidet:

H0: Sportlane on puhas

H1: Sportlane on tarvitanud dopingut.

Nagu süütuse presumptsioonile kohane, eeldame vaikimisi, et sportlane on puhas (seda nimetatakse nullhüpoteesiks ja tähistatakse H0).

2. Teststatistik

Nüüd on küsimus selles, kas meil on piisavalt “tõendusmaterjali”, et saaksime väita, et sportlane on tarvitanud dopingut. Selleks mõeldakse välja mingi mõõdik (teststatistik), mille põhjal hakatakse edasisi otsuseid tegema. Kasvuhormooni testi puhul oli selleks kasvuhormooni (hGH) isovormide suhe. Saame väita, et sportlane on dopingut tarvitanud, ainult juhul, kui on äärmiselt ebatõenäoline, et nii kõrge/suure/imeliku testitulemuse (hGH isovormide suhte) saab puhas sportlane. Vastasel juhul pole meil mingit alust teda selles süüdistada.

3. Teststatistiku jaotus nullhüpteesi korral

Nüüd olemegi testi koostamisega jõudnud juba sinnamaale, et tuleb määrata piir, millest alates annab test tulemuseks “kasutas dopingut”. Kuidas seda piiri määrata? Selleks on meil vaja teada, millised on nende sportlaste hGH suhted, kes pole dopingut tarvitanud. Paraku ei ole see näitaja konstantne, tulemused võivad erineda indiviiditi ning isegi ühe sportlase erinevatel mõõtmistel. Seega ei ole üldse lihtne ülesanne öelda, milline on piir dopingu tarvitajate ning mittetarvitajate vahel.

Saamaks teada, milline on kasvuhormooni isovormide suhe kõigil neil sportlastel, kes pole dopingut tarvitanud, kogus WADA esmalt (enne testi kasutuselevõttu) 106 näitu, mõned neist pärinevad näiteks 2009. aasta kergejõstiku MM-ilt.

Oletame, et need suhted tulid sellised, nagu joonisel näha (need andmed on illustratiivsed):

Alternatiivselt võime need andmepunktid esitada histogrammina.

Praegu teame seda näitu ainult 106 sportlase kohta. Soovime aga, et meie väited kehtiksid kõigi sportlaste kohta, see tähendab, et
soovime teha selle valimi abil üldistusi üldkogumi kohta. Selleks sobitatakse matemaatiline mudel nendele andmetele.

Kui sportlane on puhas, siis peab test õigesti tagastama, et see tõesti nii ka on. Kahjuks ei ole testid ideaalsed. Üldiselt on võimalik teha kahte erinevat viga:

1. väita puhta sportlase kohta, et ta on tarvitanud dopingut,

2. väita dopingut tarvitanu kohta, et ta on puhas.

On selge, et neist esimene on väga tõsiste tagajärgedega viga (just nagu kohtus süütu inimese süüdi mõistmine) ning sellist viga soovime iga hinna eest vältida. Sellist viga nimetatakse ka valepositiivseks tulemuseks. Antud testi puhul on lubatud sellist viga teha ainult 0,01% juhtudel. See tähendab, et 99,99% puhaste sportlaste korral peab see test näitama negatiivset tulemust.

Teise vea tegemine ei ole nii väga tõsiste tagajärgedega (just nagu kohtus jääb aeg-ajalt inimesi süüdi mõistmata asitõendite vähesuse tõttu). Lihtsalt, kui me testi piirnormi väga kõrgeks seame (näiteks tahame, et puhaste sportlaste korral näitab test 100% juhtudel negatiivset tulemust), võib juhtuda, et teeme väga palju selliseid vigu, kuna me ei suuda kellegi kohta väita, et ta on dopingut tarvitanud. Sellisel juhul on see test lihtsalt mõttetu ning meil tasuks kaaluda, kas selline testimine omab üldse mingit mõtet.

4. Piirnormi arvutamine

Seega on piirnormi valikul meie kriteeriumiks: kui sportlane on puhas, siis test peab seda ka 99,99% juhtudel näitama.

Ehk teisisõnu: otsustuspiiri tõmbame sinna, kus keskmiselt tuleb 1 valepositiivne tulemus 10 000-st testist.

Ehk teisisõnu: tahame tõmmata piiri sinna, millest suurem hGH isovormide suhe esineb vaid keskmiselt ühel puhtal sportlasel 10 000st.

Eelnevalt oleme andmetele sobitanud matemaatilise mudeli (statistilise jaotuse). Oleme otsustanud valida sellise piirnormi, et puhta sportlase testitulemus oleks 99,99% juhtudest negatiivne. Nüüd on piirmäära leidmine vaid kerge rehkendus kasutades sobitatud matemaatilise mudeli omadusi (statistikatarkvaras põhimõtteliselt ühe käsu rakendamine).

Mõned tähelepanekud:

1.) Nägime, et kui on määratud, mida me testiga mõõdame (kasvuhormooni isovormide suhet), siis test sõltub suuresti vaid sellest, milliseks hindasime üldkogumi jaotuse, sest piirmäär arvutatakse jaotuse põhjal. Üldkogumi jaotuse hinnang sõltub suuresti aga valimi suurusest ja matemaatilise mudeli valikust. Varsti näeme, et mõlemaga oli selle testi puhul probleeme.

2.) Me ei tea, milline on dopingut tarvitanud sportlaste hGH suhte jaotus. Oleme lihstalt otsustanud, et kui kellegi hGH suhe on ebatavaliselt kõrge puhta sportlase kohta, siis on ta dopingut tarvitanud.

Ideaalis võiks olla dopingut tarvitanud ning puhaste sportlaste hGh suhe väga selgesti eristatav:

Sel juhul eristaks test patustanu ja puhta sportlase suurema vaevata.

Mõistlikum oleks praeguse testi puhul aga arvata midagi järgmist:

Ehk puhaste sportlaste ja dopingut tarvitanud sportlaste hGH suhte väärtused kattuvad (tegelikult võib ka dopingutarvitajatel esineda nullilähedasi väärtuseid ning dopingutarvitajate jaotusel võib-olla lihtsalt pikem ja raskem saba, seega jaotused kattuvad ilmselt palju rohkemgi kui joonisel näidatud).

Siit jooniselt näeme ka seda, et kui soovime valepositiivsuse tõenäosuse väga väikeseks viia, siis tuleks valida nii kõrge piirnorm, et test ei võtaks vahele ühtegi dopingutarvitajat.

3.) Kõlama on jäänud väide, et test ise on usaldusväärne, aga piirmäärad on valed. Nagu eelnevalt oleme näinud, siis võib väita, et “piirmäärad, see ongi test”. Ehk piirmäär on üks olulisemaid komponente statistilisest testis. Korrektselt valitud piirnormita ei saa ka test usaldusväärne olla. CASi raportit lugedes selgub, et fraasiga “test on usaldusväärne” on lihtsalt mõeldud, et testiga mõõdetakse tõesti hGH isovormide suhet.

CASi argumendid Andruse õigeks mõistmisel

Mis olid need lõplikud argumendid, miks CAS andis Andrus Veerpalule õiguse? Ehk miks olid piirmäärad valesti määratud?

1. Andmepunktide eemaldamine andmestikust

Testi piirmäärade verifitseerimisel (kontrollimisel) viskas WADA mõned mõõtmistulemused andmestikust välja. Nende sõnul olid väljavisatud andmepunktid erindid või dopingupatustajad. Mõistagi ei ole teada, kas need kõrged hGH suhted olid valenegatiivsed või tegelikult ka dopingupatustajate näitajad. Üldiselt on andmeanalüüsis osade mõõtmistulemuste kõrvalejätmine väga-väga halb toon. Sedasi toimides saaksime ju alati välja valida endale sobivamad vaatlused ning väita “statistika abil” kõike, mida soovime.

2. Väike valimi maht

Testi otsustuspiirid olid määratud vaid 106 sportlase põhjal, kui testiga hakati juba sportlaseid “vahele võtma”. Samas eeldati, et test teeb vaid 1 vea 10 000 testis. Sellise täpsuse saamiseks oli valimimaht ilmselgelt liiga väike.


3. Millist matemaatilist mudelit kasutati?

See on vast kõige olulisem punkt. WADA rääkis endale vastu ja vahetas poole pealt oma arvamust seoses sellega, millist matemaatilist mudelit (jaotust) nad piirmäärade seadmisel kasutasid.

Algselt väideti, et kasutati log-normaaljaotust.

Tsiteerime nüüd Eesti teadlaseid:

“Alles siis, kui me näitasime, et log-normaalse jaotuse korral saadud otsusepiir tähendaks Andruse jaoks negatiivset testitulemust, väitis vastaspool, et õige on kasutada hoopis gamma jaotust (mis ei ole selliste andmete korral bioloogiliselt põhjendatud). Tähelepanuväärselt esitati see väide alles pool aastat pärast kohtuistungit.”

Aga mis on vahet log-normaal ja gamma jaotusel? Vaatame genereerituid (suvalisi) andmeid ja neile sobitatud gamma ja log-normaal jaotust.

Visuaalsel hinnangul nad justkui väga palju ei erinekski. Log-normaaljaotusel on aga raskem saba, mis tähendab, et suuremad väärtused esinevad veidi sagedamini. Mõlema jaotuse jaoks on joonisele kantud ka otsustusmäär, ja nagu näha, siis need erinevad märgatavalt.


Kokkuvõte

Dopingusüüdistusel lasub FISil kohustus tõestada, et dopingut on tarvitatud. Seda tuleb teha läbi teaduslikult põhjendatud testi. Kuna kasvuhormooni test seda aga pole, siis polnud alust ka arvata, et Andrus Veerpalu tarvitas dopingut.