Blogi

Tietoa hakevat äänestäjät auttavat ennustamaan vaalien voittajat

Kirjoittanut Alina Peussa | BI-konsultti | 11.4.2019 21:00

Miltä näyttäisi Suomen tuleva eduskunta Googlen datan perusteella ennustettuna? Ennustimme eduskuntavaalien tulokset hakumäärien perusteella.

Eduskuntavaalien varsinaiseen vaalipäivään on vain kotva aikaa, mutta vielä ehtii tekemään ennusteita tulevista voittajista ja häviäjistä. Ennakkoäänestyksen aikana äänensä on jo antanut arviolta 1,5 miljoonaa Suomen kansalaista. Ennen uurnille menoa äänestäjät ovat syöttäneet valitsemansa ehdokkaan nimen Googlen hakupalveluun. Moni tarkistaa valitsemansa ehdokkaan numeron, toiset saattavat tehdä viime hetken taustatutkimusta. Riippumatta siitä, mistä syystä kukakin ehdokkaan nimeä googlettaa, jokainen haku tallennetaan visusti Googlen tietokantoihin. Google Trends -palvelun kautta näitä hakuja pääsee tutkimaan ja hyödyntämään.

Tiedonhakukäyttäytymisestä syntyneen datan laatu eroaa suuresti perinteisestä kyselytutkimuksin saadusta datasta. Vaikka kyselytutkimuksia suorittaessa on mahdollista pyrkiä mahdollisimman totuudenmukaisiin tuloksiin, on mahdotonta varmistaa, että vastaajat ovat rehellisiä. Ihmiset valehtelevat. Joskus tahallisesti, joskus tiedostamattaan. Googlelle he eivät pysty valehtelemaan, sillä saadakseen haluamansa hakutuloksen, käyttäjien on kerrottava täsmälleen mitä he haluavat tietää.

Datalähteenä Google Trends on varsin monipuolinen. Hakutermin suosioindeksi on mahdollista saada kohdennettuna maakuntatasolle, jolloin voidaan seurata esimerkiksi trendien kehittymistä eri alueilla. Lisäksi voidaan noutaa käyttäjien mielestä hakutermiin liittyviä sanoja, jolloin aiheesta päästään tekemään laajempaa mielipideanalyysiä. Käyttökelpoista dataa voi potentiaalisesti saada aiheista, joihin liittyy googlettamisen yleisyys (reseptien, tuotearvostelujen tai aukioloaikojen haku) tai korostunut anonymiteetin tarve (terveydentilaan, politiikkaan, uskontoon tai seksuaalisuuteen liittyvät haut). Etenkin jälkimmäisen kohdalla luotettavien kyselytulosten saaminen voi olla haastavaa.   

Tässä kevytmielisessä harjoituksessa ennustetaan käynnissä olevien vaalien tulokset oppimalla menneisyyden tapahtumista. Mukana analyysia kanssani tekemässä oli myös Shakera Jahan. Koneoppimisalgoritmin opetusdatana on käytetty äänestäjien Google hakuja vuoden 2015 eduskuntavaalien ajalta. Edellisten vaalien voittajat ovat meillä tiedossa, joten on mahdollista opettaa mallille yhteys Google Trends -datan ja eduskuntaan valituksi tulleiden välillä. Ennusteessa ei ole huomioitu vaalipiirijaon ja suhteellisen vaalitavan vaikutusta, vaan ennuste kattaa koko Suomen.

Raportin ensimmäisellä sivulla voit tarkastella tuloksia ehdokkaan tai puolueen mukaan. Toiselta sivulta näet ennustetun kokoonpanon sekä top 20 ääniharavat.

 

Miten teimme sen?

Google Trends -data on haettu gtrendsR -nimisellä R-paketilla. Hakutermikyselyt toteutettiin hakupareina, johtuen Google Trends -palvelun tavasta esittää eri hakutermien suosion indeksinä kaikista Suomessa tehdyistä hauista. Hakujen kappalemääriä Google Trends ei paljasta. Ehdokkaan etunimeä ja sukunimeä kyseltiin yhdessä hakutermin ”kuume” kanssa, jolloin ehdokkaan nimen suosio on suhteellinen hakutermiin ”kuume”. ”Kuume” osoittautui sopivaksi pariksi useiden eri vaihtoehtojen (kuten esim. ”sää” tai ”katsastus”) joukosta. Poliitikon saama hakuindeksi varsinaisen vaalipäivän aikana osoittautui olevan korrelaatiossa saadun äänimäärän kanssa.

Koneoppimisalgoritmiksi valittiin kaksiluokkainen päätöspuu (two-class decision tree). Sen kouluttamiseen on käytetty datasettiä, jossa on jokaisen ehdokkaan henkilökohtainen Google Trends -indeksin keskiarvo ennakkoäänestyspäiviltä sekä vaalien tulos. Algoritmi pyrkii ennustamaan vaalien tuloksen, eli valittiinko ehdokas vai ei. Opetusdata tasapainotettiin monistamalla valituksi tulleiden ehdokkaiden arvoja. 

Ennustetta varten koostettiin datasetti tämän vuoden ehdokkaista, jossa oli opetusdataa vastaavat tiedot. Malli toteutettiin Azure Machine Learning Studiossa ja tulokset visualisoitiin MS Power BI:llä.

Miten ennusteemme lopulta kävi? Lue analyysimme ennusteen toteutumisesta