Salainen agentti ja tietosuoja

Oletko nähnyt viimeisimmän Bond-elokuvan 007 Spectre? Avaus­kohtauksessa mustiin pukeutunut henkilö pääkallo­maskissa kävelee vilkkaalla Mexico Cityn kadulla keskellä Kuolleiden päivän karnevaalia. Vaikka kasvoja ei paljasteta, katsoja tajuaa hyvin pian kameran seuraavan Bondia.

Tunnistustehtävä on helppo, kun tietää katsovansa Bond-elokuvaa. Lisäksi ohjaaja sekä näyttelijä tekevät parhaansa antaakseen sopivasti vihjeitä paljastamatta suoraan ruudussa näkyvän hahmon henkilöllisyyttä. Katsojalla on näin riittävästi tietoa tunnistaakseen, kenestä on kyse pääkallo­maskista huolimatta.

Hallinnolliset rekisteri­aineistot sisältävät suuren määrän yhteis­kunnasta kerättyä tietoa. Aineistojen vahvuus ja erityis­piirre on siinä, että eri puolilta kerättyä tietoa voidaan luotettavasti yhdistellä. Tällä tavoin on mahdollista päästä käsiksi hyvin moni­mutkaisiinkin yhteis­kunnallisiin ilmiöihin, tutkia niitä ja käyttää tuloksia tietoon perustuvassa päätöksen­teossa.

Kun tiedon määrä kasvaa, myös tieto­suojaan on kiinnitettävä entistä enemmän huomiota. Tieto­suoja nousi esiin viime viikolla Helsingin Sanomien uutisoinnin käynnistämässä keskustelussa puolustus­voimien ”palikka­testien” epäillystä tieto­vuodosta (linkki1, linkki2, linkki3).

Tällä viikolla selvisi, että Pää­esikunta ei epäile tieto­­vuotoa. Keskustelussa esiintyivät tieto­suojaan liittyvät käsitteet anonymisointi ja pseudonymisointi.

Bond-elokuvan katsojalla oli riittävästi tietoa vähintäänkin hyvään arvaukseen pääkallo­maskiin naamioituneen hahmon henkilöllisyydestä. Katsoja pystyi rajaamaan mahdollisten henkilöiden joukon riittävän pieneksi ruumiin­rakenteen, silmien sekä hiusten perusteella arvatakseen, että kyse on elokuvan pää­henkilöstä.

Jos aineisto sisältää riittävästi tietoa, samalla tavoin rajaamalla onnistuu erityis­tapauksissa yksittäisen havainnon, kuten henkilön tai yrityksen tunnistaminen yksikkö­tasoisesta tutkimus­aineistosta, vaikka käytössä ei olisikaan suoraa tunnistetta kuten henkilö­tunnus tai yritys­tunnus. Tätä kutsutaan epä­suoraksi tunnistamiseksi.

Jos suora ja epäsuora tunnistaminen halutaan estää, tutkimus­aineisto on anonymisoitava. Anonymisoitu aineisto ei sisällä tietoja, joita yhdistelemälläkään yksittäinen havainto, kuten henkilö, voitaisiin tunnistaa. Anonymisoituun aineistoon ei myöskään voi yhdistää uusia tietoja siten, että tunnistaminen tulee mahdolliseksi.

Kun kyseessä on moni­mutkainen useasta lähteestä yhdistetty aineisto, luotettavasti anonymisoidun aineiston tuottaminen on työlästä. Hyvin laajojen aineistojen tapauksessa anonymisointi ei aina ole edes mahdollista. Anonymisointi vaikuttaa myös aineiston käytettävyyteen tutkimuksessa, koska aineiston tarkkuus ja kattavuus usein vähenevät anonymisoinnin yhteydessä.

Kun aineiston havaintojen suorat tunnisteet peitetään tai korvataan koodeilla, puhutaan pseudo­nymisoinnista. Pseudo­nymisoitua aineistoa käytettäessä voi erityistapauksessa olla mahdollista, että jokin havainto on epä­suorasti tunnistettavissa. Tämän vuoksi Tilastokeskus on luonut pseudo­nymisoitujen aineistojen käsittelyyn tietoturvallisen ympäristön.

Alun esimerkissä Bondin henkilöllisyys ei ollut anonymisoitu vaan pseudo­nymisoitu. Suora tunniste – kasvot – oli peitetty naamarilla.

Yhteiskunnassa jatkuvasti lisääntyvä datan määrä mahdollistaa yhä moni­mutkaisempien ilmiöiden tutkimisen, mutta vain, jos tieto saadaan turvallisesti ja tehokkaasti käyttöön.

Tilastokeskus tarjoaa tutkimus­aineistoja sekä anonymisoituna että pseudo­nymisoituna. Aineiston tarve ja luovutus­tapa arvioidaan aina tapaus­kohtaisesti käyttölupa­menettelyn kautta. Aineiston käyttäjä antaa aina myös salassa­pito­sitoumuksen ja käsittelee tietoja luottamuksellisina, eikä saa yrittää tunnistaa tietojen kohteita.

Pseudonymisoituihin aineistoihin voi saada käyttö­oikeuden Tilasto­keskuksen FIONA-etäkäyttö­järjestelmän (Finnish Online Access) kautta. FIONA-järjestelmä on tieto­turvallinen ympäristö, jonka kautta tutkija saa näkymän aineistoon ja pystyy käsittelemään sitä.

Kun järjestelmästä otetaan tuloksia ulos, taulukot tarkastetaan tieto­suojan osalta ennen niiden luovuttamista tutkijalle. Yksittäisiä havaintoja ei voi siirtää ulos järjestelmästä, eikä ulos anneta tuloksia, joista havaintojen epä­suorakaan tunnistaminen on mahdollista.

Kun aineistoa käsitellään FIONAssa, käyttäjä ei myöskään voi luovuttaa aineistoa eteenpäin. Käyttöä voidaan valvoa ja väärinkäyttö­epäilyiden tapauksessa yhteys voidaan katkaista välittömästi. Vastaavan­laisia järjestelmiä on käytössä myös esi­merkiksi muissa Pohjois­maissa.

Tietoluovutuksiin liittyvän tekniikan ja käytänteiden kehittäminen on tehokas tapa tukea suomalaista tutkimusta. Yhä suurempien aineisto­massojen hyödyntäminen tutkimuksessa vaatii, että myös tieto­suoja huomioidaan uudella tavalla. Jos näihin asioihin panostetaan, voimme tarjota tutkijoillemme kansain­välisestikin merkittävän kilpailu­edun yhteis­kunnasta kerättävien laajojen ja luotettavien aineistojemme kautta.

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Kommentit (0 kommenttia)