Data ennustaa, ketkä menevät läpi eduskuntavaaleissa

Eduskuntavaalien tulokset ratkeavat parin päivän kuluttua, 14. huhtikuuta. Digian data-analyytikot ovat koonneet Google-hakumäärien perusteella ennusteen eduskuntavaalien tuloksista.

Vaalien viisi kovinta ääniharavaa ovat hakukonesuosionsa perusteella Jussi Halla-aho (PS), Antti Rinne (SDP), Li Andersson (Vas.), Juha Sipilä (Kesk.) ja Emma Kari (Vihr.)

Kun tarkastellaan läpimeneviä ehdokkaita puolueittain, juhlii puolestaan kokoomus. Läpimenevistä ehdokkaista kokoomuslaisia olisi datan perusteella peräti neljäsosa. Sen jälkeen eniten ehdokkaita saisi ennusteen mukaan vihreä liitto (34 ehdokasta).

Seuraavaksi lähes tasoissa ovat perussuomalaiset (30), keskusta (28) ja Sdp (28). Vasemmistoliittolaisia eduskuntaan pääsisi 19 ja kristillisdemokraatteja 12 edustajaa. Mukaan mahtuvat myös sininen tulevaisuus (4), Rkp (2) sekä Paavo Väyrysen seitsemän tähden liike (2). Ennuste eduskunnan kokoonpanolle on laskettu 210 ehdokkaan mukaan virhemarginaalin kattamiseksi.

Ennuste pohjautuu hakukonedataan Suomessa tehdyistä Google-hauista ennakkoäänestyksen aikana. Koneoppimisalgoritmin opetusdatana on käytetty äänestäjien Google-hakuja vuoden 2015 eduskuntavaalien ajalta.

Ennuste kertoo:

  • Ääniharavat koko maassa, top 20
  • Puolueiden kansanedustajamäärät
  • Läpimenon todennäköisyyden ehdokaskohtaisesti

Tutustu koko analyysiin täällä >>

Ennusteen taustalla lukuisia muuttujia

Ennusteen taustalla on oletus, että hakukonekäyttäytyminen ennakoi äänestyskäyttäytymistä. Toki leikkimielisessä ennusteessa on lukuisia muuttujia, jotka vaikuttavat lopulliseen vaalitulokseen, ja joita analyysissä ei ole huomioitu.

”Voi esimerkiksi olettaa, että nuoremmat käyttävät Googlea tiedonlähteenä enemmän kuin vanhemmat äänestäjät. Todellisuudessa iäkkäämmät äänestävät nuoria aktiivisemmin. Siinä mielessä hakukonedata antaa osviittaa, miltä vaalitulokset voisivat näyttää, jos nuoret aktivoituisivat joukolla vaaliuurnille”, analyytikko Alina Peussa sanoo.

Ennusteessa ei ole myöskään huomioitu vaalipiirijaon ja suhteellisen vaalitavan vaikutusta.

Yleisesti ottaen hakukonedata voi Peussan mukaan olla monissa tilanteissa esimerkiksi kyselytutkimusta luotettavampi tiedonlähde. Kyselytutkimusten haaste on, että vastaajien rehellisyyttä on mahdoton varmistaa.

”Moni tarkistaa ehdokkaan numeron, toiset saattavat tehdä viime hetken taustatutkimusta. Riippumatta siitä mistä syystä kukakin ehdokkaan nimeä googlettaa, jokainen haku tallennetaan visusti Googlen tietokantoihin”, Peussa sanoo.

Hakukonedata kertoo, mikä ihmisiä kiinnostaa

Digian analytiikkayksikön vetäjä Päivi Karesjoki sanoo, että tiedonhakukäyttäytymisen analyysi on oiva keino erilaisten trendien seuraamiseen. Hakukäyttäytymisen avulla on mahdollista saada tietoa yksityiseksi mielletyistä aiheista, kuten poliittisista ja uskonnollisista kannoista tai terveysaiheista, joista voi olla vaikea saada tietoa kysymällä ihmisiltä suoraan.

”Nyt puhutaan paljon ’mikrotrendeistä’, eli asioista, jotka eivät vielä ole nousseet pinnalle mutta kuplivat pinnan alla. Näitä mikrotrendejä voi jatkossa hyödyntää liiketoiminnassa, esimerkiksi uusien sisältöjen, palvelujen ja tuotteiden suunnittelussa. Sillä, joka ymmärtää tämän hyödyn ennen kilpailijoita, voi olla iso etulyöntiasema”, Karesjoki sanoo.

”Arkaluontoista dataa käsitellessä ensiarvoisen tärkeää on anonymiteetin turvaaminen ja datan käsittelyn eettisyys. Datan hyödyntämisen mahdollisuuksista on hyvä olla kartalla, jotta myös eettisyyttä voi arvioida”, Karesjoki sanoo.

Ennuste pohjautuu Googlen tietokanta-dataan. Digia ei ota kantaa vaalitulokseen. Toivotamme kaikille ehdokkaille menestystä vaalikentille tasapuolisesti!

 

Lisätietoja:

Päivi Karesjoki
Liiketoimintajohtaja, analytiikka, Digia Oyj
P. 040 902 2212