12. helmikuuta 2016, 9.49 Vieraskynä: Jussi Melkas

Vallankumous tiedossa

Big data muuttaa yhteis­kuntaa syvällisesti. Jokseenkin varma muutos on se, että tiedon näköinen informaatio lisääntyy valtavasti. Mutta mitä big data merkitsee tiedon tuottamiselle?

Usein oletetaan, että uusi data lisää tietoa yhteis­kunnasta. Joissakin asioissa uusi data avaakin maailman­kuvaan uusia näkymiä ja kirkastaa vanhoja. Samalla syntyy kuitenkin uusia sokeita pisteitä ja vanhoja hämärän alueita säilyy.

Uutta tietoa syntyy esimerkiksi, kun sosiaalisen median sisältöjä ja tunnelmia analysoidaan. Kuluttaja­barometrin korvaaminen tviitti­tiedoilla lienee mahdollista nopeastikin.

Sosiaalisen median aineistojen avulla voitaisiin myös saada käyttöön aivan uutta, virallisen tilaston ulko­puolella ollutta tietoa yhteis­kunnan ja kansa­laisten elämän­tavoista ja tuntemuksista. Niiden avulla voidaan kuvata subjektiivisten tekijöiden muutosta, minkä merkitystä on korostettu talouden ja elinolojen seurannassa.

Virallisen tilaston tulisi kuvata yhteiskuntaa kattavasti. Rekisterien peitto-ongelmat ja kato saavat kuitenkin aikaan sen, että esimerkiksi maahan­muuttajista, syrjäytyneistä, vanhuksista, rikollisista ja köyhistä ei saada samalla tavalla kattavaa tietoa kuin keski­luokasta. Tilanne on viime aikoina kehittynyt huonoon suuntaan. Kuitenkin juuri näistä syrjään jäävistä ryhmistä tarvittaisiin tietoa.

Antaisiko uusi data mahdollisuuden korjata yhteis­kunnallisen tiedon rajoittuneisuutta? Valitettavasti se ei taida tuoda helpotusta. Päinvastoin yhteis­kuntaa koskeva tieto voi muuttua yhä rajoittuneemmaksi ja keskittyä netissä aktiiviseen porukkaan. Aiempien ryhmien lisäksi syrjään jäävät digi­poropeukalot ja muut sosiaalista mediaa vierastavat. Lisäksi verkossa ilman asian­mukaista kontrollia toteutettavat mielipide­tiedustelut lisäävät nettiaktiivien näkyvyyttä muiden kustannuksella.

Uuden tiedon lisäksi uusi data tuottaa runsaasti epätietoa. Aineistojen suuri koko lisää mm. satunnaisten, mutta tilastollisesti merkitsevien korrelaatioiden esiintymistä, mikä johtaa helposti vääriin johto­päätöksiin. Tämä on ollut ongelma empiiristen tutkimusten tulostehtailussa jo aiemmin, mutta se pahenee isojen aineistojen myötä.

Se että joukko­viestimet saavat lisää falskeja "nyt se on tutkittu" -tyyppisiä juttuja, on pienempi paha kuin se, että ideologisesti virittynyt päätöksenteko pystyy poimimaan perusteluikseen mieluisimmat näennäistulokset.

Datan runsaus on innostanut uskomaan, että data sinänsä tuottaisi päätöksenteon kaipaamia kysymyksiä ja vastauksia. Perinteistä yhteiskunta­teoriaa ei silloin enää tarvittaisi.

Datauskovaisten mielestä big datan pohjalta tehdyt ennusteet ovat hyödyllisempiä kuin syy-seuraus­suhteiden selvittäminen. Joiltakin osin näin onkin. Survey-aineistoista kehitellyt kausaali­mallit ovat usein moni­mutkaisia, ja eri muuttujilla on alhaiset selitysasteet. Ennuste, joka olettaa tapahtuneen kehityksen jatkuvan jonkun logiikan mukaan, voi olla käytännöllisempi – ainakin jonkin aikaa.

Googlen flunssa­indikaattorin epä­onnistuminen osoittaa kuitenkin, että ennustaminen ilman käsitystä siitä, mitä mittari kuvaa, ajautuu ennen pitkää ongelmiin. Flunssa­indikaattorilla seurattiin tietyn­tyyppisten hakusanojen esiintymistä Googlen hakukoneessa. Parin vuoden ajan tällä indikaattorilla pystyttiin ennustamaan epidemioiden etenemistä paremmin kuin terveyden­huollon organisaation tiedoilla. Kolmantena vuonna ennustukset menivät pieleen. Indikaattori ei mitannutkaan flunssan esiintymistä.

Flunssa­mittarin tekijät eivät olleet ymmärtäneet, millä ehdoilla mittari toimi. Datan ja sen analyysin taustalla on tulkinta maailmasta. Tiedon hyödyllisyyden kannalta on tarpeen, että mittareiden rajoitukset tunnetaan

Uuden datan käyttö ja tulkinta on ajateltu tekniseksi hommaksi, johon tarvitaan vain IT- ja menetelmä­väkeä. Työmarkkinoilla kuitenkin kysytyimpiä ovat sellaiset data-analyytikot, jotka data­lukutaidon ohella hallitsevat myös jonkun erikoisalan asioita. Siis myös substanssi­osaaminen on tärkeää uuden datan käytössä.

On vaikeaa hahmottaa, minkä­laiseksi tiedon­hankinnan kokonais­kuva muodostuu näiden muutosten seurauksena. Joka tapauksessa uusi data merkitsee vallan­kumousta tutkimus- ja tilasto­työssä. Tiedon hankinnan menetelmät ja osaamis­vaatimukset on mietittävä uudestaan.

Satunnais­otannan ja survey-tyyppisten tutkimusten avulla on tuotettu standardoituja, tasa­rakenteisia ja laadukkaita aineistoja. Ne ovat nyt saamassa rinnalleen sekalaista dataa, joka kertoo uusista asioista nopeammin ja halvemmalla. Uusi data on kuitenkin syntynyt muista syistä kuin yhteiskunta­kuvauksen tarpeista, minkä vuoksi se sisältää tutkimuksen ja tilastojen kannalta hankalia ratkaisuja ja rajauksia.

Vanha osaaminen ei ehkä menetä arvoaan, mutta uusia menettelyjä on kehitettävä. Tieteen maailmassa tilasto­tieteen rinnalle on syntynyt data science, joka perustuu tilasto­tieteen lisäksi hyvin monen­laisiin tieto­tekniikan ja tiedon­hallinnan alueisiin. Myös substanssi­asiantuntemuksen merkitys korostuu. Suomessa rekistereihin pohjautuvien tilastojen tuotanto jo aiemmin ratkaissut saman­tyyppisiä ongelmia, mutta uuden datan aineistoissa haasteet monin­kertaistuvat.

 

Blogiteksti pohjautuu Tilasto­keskuksen tietopalvelu­johtajanakin toimineen kirjoittajan sekä alan toisen konkarin VTT Jussi Simpuran eri yli­opistoissa pitämään luento­sarjaan Tilastojen yhteis­kunta.

 

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Kommentit (0 kommenttia)