Olympialaiset ovat maailman suurin urheiluspektaakkeli. Ne ovat vuosien saatossa kasvaneet miljardien arvoiseksi PR-tapahtumaksi ja maailman parhaimpien urheilijoiden ja mielenkiintoisimpien urheilulajien taisteluareenaksi. Voisiko koneoppimisalgoritmein löytää selittäviä ilmiöitä sille, miksi jotkut maat saavat enemmän mitaleja kuin toiset? Entä millaista menestystä Suomelta on lupa odottaa?
Vaikka olympialaisissa on kyse yksilöistä ja yksittäisistä lajeista, on kiinnostava näkökulma myös yksittäisen maan mitalisaalis. Esimerkiksi Suomi rohmusi vielä ennen 60-lukua säännöllisesti 20-30 mitalia kaikista olympialaisista, mutta liki kolmeenkymmeneen vuoteen emme ole saaneet edes viittä mitalia yksissäkään kisoista.
Digian Data Scientistit tutkivat erilaisia avoimia tietolähteitä etsien maailman maista kerättyä dataa. Tutkimme sen jälkeen, onko käyttämässämme datassa olympiamenestyksen kanssa korreloivia tekijöitä.
Ehkäpä suomalaisen urheilunseuraajan näkökulmasta voisi äkkiseltään kuulostaa positiiviselta, että maat, joissa kulutetaan enemmän vahvoja alkoholijuomia, saavat enemmän mitaleja. Jos vertaillaan kahta identtistä maata, joista toisessa juodaan yksi pullo enemmän 40 % alkoholia vuodessa asukasta kohden, on suuremman kulutuksen maassa odotettavissa yksi mitali enemmän olympialaisista. Ehkäpä yksi mitali ei aluksi kuulosta hurjalta, mutta on hyvä ottaa huomioon, että esimerkiksi Suomi ei ole saanut edes viittä mitalia kerralla yksittäisistä olympialaista 25 vuoteen.
Tutkimme seuraavaksi maitotuotteiden tuotantomääriä per asukas, lihantuotantoa per asukas ja kalojen ja merenelävien kulutusta per asukas. Havaitsimme, että maat, joissa syödään enemmän eläinperäisiä tuotteita, menestyvät paremmin olympialaisissa. Korrelaatio on hieman heikompi kuin vahvojen alkoholijuomien suhteen, mutta tilastollisesti merkittävä. Erityisesti lihankulutus ja maitotuotteiden tuotanto korreloivat mitalimäärien kanssa. Molemmissa 10 kg vuotuisen kulutuksen lisäys asukasta kohden tuo yhden mitalin lisäyksen mitaliodottamaan.
Mutta hetkinen, nämä tulokset eivät ole linjassa yleisten ravintosuositusten kanssa, joissa kehotetaan välttämään alkoholia ja lisäämään kasviksia. Pitäisikö olympiaurheilijoiden siirtyä lihansyöjiksi ja alkoholin suurkuluttajiksi? Tuskinpa. Löydöksemme ovat havaintoja, jotka kertovat korrelaatiosta, mutta ei välttämättä syy-seuraussuhteista. Tämä on yleinen haaste tilastoissa.
Esimerkiksi on tilastollinen fakta, että kesällä lisääntyvät sekä hukkumiskuolemat, että jäätelön syönti. Hukkumisten syynä tuskin kuitenkaan on jäätelön syönti, vaan lämpimät kelit, joka johtaa sekä vesillä vietetyn ajan että jäätelön kulutuksen kasvuun. Olympialaisten suhteen näkemyksemme on, että kehittyneissä ja vauraammissa maissa kulutetaan enemmän vahvoja alkoholijuomia, sekä enemmän energiaa ja tuotannollisia resursseja vaativia elintarvikkeita, kuten liha- ja maitotuotteita. Näissä maissa on oletettavasti myös vaurauden vuoksi paremmat olosuhteet urheilulle ja huippu-urheilijaksi kasvamiselle. Tästä indikoi myös seuraavat havaintomme.
X-akseli kuvaa lihan tuotantoa per asukas kaksi vuotta ennen olympialaisia (0 = matalimman tuotannon maa, 1 = korkeimman tuotannon maa), Y-akseli kuvaa montako prosenttia maa on saanut mitaleista olympialaisissa (0.00 = 0 %, 0.25 = 25 %). Korrelaatio on tilastollisesti merkittävä, mutta hajonta on suuri.
Havaitsimme korkeamman syntyvyyden ja korkeamman kuolleisuuden olevan yhdistettävissä pienempään mitalimäärään. Toisaalta korkeampi BKT (BKT per capita) ja eliniänodote ovat indikaattoreita korkeammasta mitalimäärästä, kuten on myös Maailman Pankin mittaama ”Human Capital Index”, joka arvioi lasten ja nuorten mahdollisuuksia elämään ja koulunkäyntiin. 10 000 euroa korkeampi BKT lisää mitaliodottamaa 3 mitalilla ja 2 vuotta korkeampi eliniän odote yhdellä mitalilla. Viimeinen yhteiskunnallinen mittari, väestön koko, lienee vähemmän yllättävä: suurempi väestö korreloi suuremman mitalimäärän kanssa.
X-akseli kuvaa Human Capital Indexiä kaksi vuotta ennen olympialaisia (0 = matalin HCI, 1 = korkein HCI), Y-akseli kuvaa montako prosenttia maa on saanut mitaleista olympialaisissa (0.00 = 0 %, 0.25 = 25 %). Hajonta on suuri, mutta korrelaatio on varsin selkeä, varsinkin korkeimmissa ja matalimmissa HCI-luvuissa.
Vaikka yritimme löytää maakohtaisia tekijöitä, joiden avulla voisimme ennustaa maiden mitalimääriä, niin vedonlyöjä osuu todennäköisimmin oikeaan tutkimalla maiden mitalimenestystä edellisissä olympialaisissa. Pelkästään edellisten kisojen mitalimäärä ennustaa 10 kertaa paremmin tulevien kisojen mitalimäärää, kuin seuraavaksi paras muuttuja.
Toinen merkittävä selittävä tekijä on kotietu. Olympialaisten järjestäjämaa saa itsellensä varsin merkittävän edun. Myös maantieteellinen etäisyys ja aikaero ovat mielenkiintoisia mittareita. Näiden vaikutus ei ole suuri, mutta mahdollisesti korona-ajan olympialaisissa, jolloin matkustaminen lienee urheilijoille tavallista stressaavampaa, on pitkä välimatka kisakaupunkiin poikkeuksellisen suuri tekijä.
X-akseli kuvaa mitalimääriä edellisessä kisoissa (0 = vähiten mitaleja saanut maa, 1 = eniten mitaleja saanut maa), Y-akseli kuvaa montako prosenttia maa on saanut mitaleista seuraavissa kisoissa (0.00 = 0 %, 0.25 = 25 %). 80 % mitaliennusteen varianssista selittyy pelkästään tämän muuttujan avulla.
Miten tämä kaikki sitten näkyy mitalitilastoissa ja kuinka paljon Suomi saa mitaleita? Oheisen kaavion top 10 mitalistit eivät varmaan yllätä. Japanin 80 mitalia on tosin urheilua seuraaville suuri hämmästys, ja onkin mahdollista, että tässä tapauksessa algoritmimme on laskenut poikkeuksellisen suuren merkityksen Japanin kotiedulle.
Suomen tulos on vähemmän mairitteleva, kolme mitalia. Edelle yltää mm. Ruotsi 12 mitalilla, Norja 6 mitalilla ja Tanska 15 mitalilla. 369 000 asukkaan Islannille ennusteemme tarjoaa 2 mitalia.