11. syyskuuta 2014, 12.00 Jouni Kotkavuori

Koko ei ole tärkein datassakaan

Isoon dataan liittyy isojen mahdollisuuksien lisäksi isoja vaaroja. Niistä ja tilastotieteen opetuksista muistutti The Undercover Economist -kolumnistina tunnettu taloustutkija Tim Harford pitämässään Royal Statistical Societyn Significance-luennossa.

Luennon sanoma kannattaa lukea samannimisen lehden jutusta, jos on siinä uskossa, ettei tilastollisia malleja enää tarvita. Onhan nyt dataa saatavilla määrättömästi Google-hauista, Facebook- ja Twitter-päivityksistä, kännyköiden liikkeistä sun muista.

Myös – ja joskus eritoten – iso data vääristyy. Niin kävi sen suurelle voimannäytöllekin, Googlen Flu Trends -palvelun kyvylle kertoa flunssa-aallon leviämisestä USA:ssa. Alkuun Googlen tiedot olivat huomattavasti tarkempia ja nopeampia kuin terveysviranomaisten, sitten Flu Trends alkoi yliarvioida tuplasti tilanteen.

Mikä meni vikaan? Kenties hakukone itse veti ehdottamillaan sanoilla enemmän ihmisiä aiheen pariin kuin muuten olisi tullut. Kenties epidemian mediahuomio sai ihmiset hakemaan tietoa, vaikkei itsellä ollutkaan oireita. Googlella oli tietoa hakujen määristä, ei syistä.

Iso riski on, tilastotieteellisin termein ilmaistuna, tarttua korrelaatioihin piittaamatta kausaalisuhteista. Sen selvittäminen, mikä todella aiheuttaa mitä, ei ole helppoa. Ison datan kanssa siinä voi mennä entistä isommin vikaan.

Datan vääristymät jäävät helposti huomaamatta. Bostonissa jäivät Harfordin mukaan sen takia kuopat köyhempien alueiden kaduilla korjaamatta. Kaupungin tarkoitus oli hyvä ja tekninen ratkaisu fiksu. Älypuhelimiin kehotettiin lataamaan sovellus, joka lähetti auton osuessa kuoppaan sijaintitiedon kadun paikkaajille. Vaan tietenkin teiden kunto parani etupäässä nuoren ja vauraan väen alueilla.

Suuri aineisto ei edelleenkään korvaa edustavuutta. Harfordin esimerkki USA:n presidentinvaaleista muistuttaa myös, että ennenkin on ollut isoa dataa – ja ennenkin on sen kanssa menty metsään.

Vuonna 1936 The Literary Digest -lehti ennusti 2,4 miljoonan vastaajan kyselynsä pohjalta murskavoittoa Alf Landonille. Mutta kysely oli suunnattu joukolle, joka ei edustanut koko kansaa: ihmisille joilla oli suuren laman aikaan varaa lehtitilaukseen, puhelimeen ja autoon (osoitteet oli kerätty rekistereistä). George Gallupin kysely perustui tuhat kertaa pienempään mutta edustavaan otokseen – ja ennusti vaalituloksen oikein.

Toki Tim Harford totesi myös, että isossa datassa on mahdollisuuksia. Mutta hän varoitti uskomasta, että nyt pystymme mittaamaan kaikkea, muuttamaan kaiken numeroiksi ja että numerot puhuvat puolestaan. ”Se on aina harhaa.”

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Kommentit (0 kommenttia)