4. lokakuuta 2013, 9.55 Vieraskynä: Jussi Melkas

Tilastollisia rikkakasveja

Jussi Melkas

Media julkaisee yhä useammin pieniä tilastollisia selvityksiä ja niihin liittyvää tilastografiikkaa. Välillä näitä näennäistilastoja julkaistaan, vaikkei siihen ole perusteita. Tilastollista esitystapaa käytetään taikatemppuna, joka saa olemattoman näyttämään olemassa olevalta ja mielivaltaisen jakauman edustavalta. Seuraavat esimerkit painottuvat Helsingin Sanomiin, koska seuraan sitä säännöllisesti.

Vastaavia tilastosirpaleita julkaistaan lähes kaikissa medioissa.

Helsingin Sanomat julkaisee lauantailiitteessään tilastografiikkaa, joka pohjautuu verkkosivuilla esitettyihin kysymyksiin. Lehden mukaan grafiikka kertoo mielipideilmastosta. 21. syyskuuta kerrottiin, että 94 prosenttia kyselyyn vastanneista oli sitä mieltä, ettei ole sopivaa, että hänen autonsa liikkeitä seurataan GPS-paikannuksella.

Ilmaisu mielipideilmasto on mukavan epämääräinen, mutta viittaa siihen, että vastaukset kuvaisivat suomalaisten mielipiteitä. Tosiasiassa emme ollenkaan tiedä, keitä grafiikalla esitetty prosenttijakauma kuvaa. Verkkosivujen kyselyihin vastaavat ovat varsin erityislaatuinen joukko – emme kuitenkaan tiedä, millä tavalla erityislaatuinen. Kyse on tilastosta, joka kuvaa tuntematonta joukkoa.

Tiistaina 24. syyskuuta lehti kysyi, pitäisikö käteisen rahan käyttöä rajoittaa. Kyselyssä oli lisäksi kaksi vastaajan ominaisuuksia koskevaa kysymystä ja kysymykset, jotka selvittivät vastaajan käteisen määrää tällä hetkellä ja sitä miten usein hän käyttää käteistä. Taustakysymykset eivät korjaa sitä, että verkkokyselyyn vastaavat eivät ole satunnaisesti valikoitunut joukko. Kyselyn tulokset julkistettiin jo 26. syyskuuta. Vastausaikaa oli siis vain päivä tai pari, minkä seurauksena vastaajajoukko valikoitui vielä hankalammin verkon suurkäyttäjiin. Tulokset sinänsä olivat uskottavia: käteisestä ei haluttu luopua.

Taloustutkimuksen tutkimusjohtaja Jari Pajunen kirjoitti blogissaan syyskuun alussa eri medioiden verkkokyselyjen tietojen paikkansapitävyydestä. Hän vertasi verkkokyselyjen tuloksia Taloustutkimuksen keräämään edustavaan aineistoon, josta saadut vastaukset poikkesivat huomattavasti verkkokyselyjen vastauksista. Esimerkiksi Ilta-Sanomien nettikyselyn mukaan yli 53 prosenttia suomalaisista haluaisi, että keskiolut poistettaisiin ruokakauppojen valikoimista, mutta Taloustutkimuksen edustavalta otokselta kysyttäessä osuus oli 12 prosenttia.

Julkaistessaan ns. HS-raadin näkemyksiä erilaisista asioista Helsingin Sanomat esittää mielipiteiden kirjon tilastografiikkana. Esimerkiksi syyskuun 21. päivän mielipidesivu (sivu C19) avattiin tilastografiikalla, jossa kerrottiin miten HS-raadin mielipiteet kuntien tehtävien karsimisesta jakautuvat.

Mistä grafiikka kertoo? Se kertoo, miten mielipiteet jakautuvat joukossa, josta lukija ei tiedä, miten se on koottu, keitä on alunperin valittu ja miten tämänkertaiset osallistujat ovat valikoituneet. Ja onko kokoonpanolla muuta yhteiskunnallista merkitystä kuin se, että lehden toimitus tekee sen mielipiteistä uutisen. Ryhmä ei edustane esimerkiksi Suomen älymystöä (mitä se sitten onkaan) – jollei sitten niin, että joukossa on monenlaisia mielipiteitä ja siitähän tilastografiikkakin kertoo. Antaako tämä grafiikka edustavan kuvan jostakin todella olemassa olevasta? Sitä emme tiedä.

Dataa syntyy joka puolella yhä enemmän. Dataa on erittäin helppo tuottaa, jos ei kanna huolta siitä, mitä se kuvaa. Mistä tahansa datasta – todellisuutta kuvaavasta tai mielivaltaisesta – voi tuottaa jakaumia, keskiarvoja yms. tunnuslukuja eli näennäisesti tietoa.

Tieto, erityisesti tilastotieto, on kuitenkin hyödyllistä vain, jos tiedetään, mitä se kuvaa.

Tilastotieteen termein: on tunnettava perusjoukko, jota datasta johdetut tunnusluvut kuvaavat. Jos perusjoukko tunnetaan ylimalkaisesti tai määritellään väärin niin kuin verkkokyselyissä usein käy, tuotetaan väärää tietoa.

Jos perusjoukkoa ei tunneta tai määritellä, tuotetaan informaation rikkakasvustoa, kuten tietoa HS-raadin mielipiteiden kirjosta jossakin erityisessä asiassa. Informaation rikkakasvit peittävät alleen luotettavan tiedon – vähän niin kuin rikkakasvit kasvimaalla.

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Kommentit (0 kommenttia)