15. toukokuuta 2013, 11.34 Pasi Piela

Avataan Big Data!

Pasi Piela. Kuva:Jarmo Partanen

Clifford Lynch esitteli ”big data” -käsitteen Nature-lehdessä vuonna 2008 ilmestyneessä artikkelissaan ”Big data - How do your data grow”. Aivan viime aikoina big data tai "iso data" on tullut myös data-analyysin ja informaatioteknologian piiriin – jopa tilastotoimen maailmaan – voimakkaana hype-ilmiönä.

Hypetystä selittävät viime vuosien merkittävät teknologiset edistysaskeleet – ajatellaan vaikkapa mobiilipäätteiden huikeaa kehitystä ja leviämistä. Niiden ja niiden lukuisten sovellusten tuottama data on välitön esimerkki big datasta. Monet yritykset ovat toiminnastaan riippuen voineet kerätä valtaisia aineistomassoja pystymättä kuitenkaan välttämättä analysoimaan niitä tehokkaasti tai edes varastoimaankaan.

On palvelinten lokitiedostoja, kauppojen kanta-asiakastapahtumia, luottokorttitransaktioita ja kaikenlaisia jatkuvana virtana sattuvia tapahtumia. Ne kertovat asiakaskunnasta todella paljon…jos niitä vaan onnistuttaisiin analysoimaan tehokkaasti. Yhteistä niille on moninaisuus, volyymi ja tilastotoimenkin kannalta houkuttelevimpana ominaisuutena nopeus tai ajantasaisuus.

Teknologinen kehitys on puolestaan mahdollistanut tällaisten datamassojen analysoinnin, ja big datan analyysityökaluja on tullut markkinoille. Avoimen lähdekoodin big data -työkalu on silti kovin juttu. Sen tunnetuin versio on Hadoop.

Tiedon arvoketjun (data value chain, information value chain) jalostaminen edellyttää siirtymistä entistä modernimpiin tietovarastoihin (data warehousing). Tietovarastoon ladataan tietoa toiminnallisista tietokannoista ja muista lähteistä. Tämä vaatii suunnattoman suuriin datamassoihin omat järjestelmänsä, esimerkiksi niin sanotun muistinvaraisen laskennan suorittamiseen (in-memory computing).

Ei ole parhaita käytänteitä: Experience the data. Myös kansainväliset järjestöt ovat näkyvästi liputtaneet big datan puolesta. Jo klassinen esimerkki YK:lta on Global Pulse: Big Data for Development. Euroopan komissio puolestaan jakaa alalle tutkimusrahoitusta ja järjesti huhtikuussa – Irlannin puheenjohtajuuskauteen liittyen – Dublinissa toisen vuotuisen European Data Forum -seminaarin. Sen tavoitteena on kannustaa eurooppalaiseen big data -yhteisöön.

Parhaita käytäntöjä ei vielä ole. Siksi foorumissakin peräänkuulutettiin rohkeutta lähteä analysoimaan big dataa ja siihen pureutuvia työkaluja. Kokemusten jakamista pidettiin myös tärkeänä. Foorumissa nostettiin toisaalta esiin se, että Euroopan ulkopuolella on ollut enemmän rohkeutta yritysten ja erehdysten kautta oppimiseen. Meidän toimintatapamme on koettu liian hitaaksi ja byrokraattiseksi – kun regulaatioita noudattaen yritetään tehdä liian hyvin liian valmista.

Tilastomiehen näkökulmasta tässäkin seminaarissa painotettiin tyypilliseen tapaan IT-ratkaisuja keskittymättä merkittäviin tilastollisiin ongelmiin, kuten edustavuuteen, laatuun ja tarkkuuteen – ja ylipäänsä niihin kaikkiin epävarmuustekijöihin, joiden kohdalla tilastotiede astuu välittömästi peliin mukaan. Tällä hetkellä big datan analyysimenetelmät vaikuttavat muutoinkin tilastomenetelmällisesti verrattain perinteisiltä elleivät peräti yksinkertaisilta.

Tilastotoimen paradigma muuttuu. Big data sai suuren huomion myös maaliskuussa Euroopan tilastovirasto Eurostatin järjestämässä virallisen tilastotoimen uusien teknologioiden ja innovaatioiden NTTS 2013 -konferenssissa. Hollannin tilastoviraston metodologi Piet Daas korosti esityksessään "Big data ja virallinen tilasto" varovaisuutta ja big dataan liittyviä laatuongelmia. Samalla hän kuitenkin esitti runsaasti esimerkkejä uudenlaisen datan käyttökokemuksista – muun muassa Facebookin ja Twitter-päivitysten analysoinnista (joista jälkimmäiset ovat oletusarvoisesti julkisia.)

Luokittelujen ja skaalausten avulla mielipiteiden, asenteiden ja muiden virtausten mittaamista voitaisiin rikastuttaa yhdistelemällä eri sosiaalisen median tuotoksia – kasvattamatta vastausrasitetta. Hollantilaisista arviolta peräti 70 prosenttia postailee aktiivisesti sosiaalisessa mediassa. Hollannissa toimiikin some-postausten seurantaan ja analyysiin keskittynyt yritys, jonka kanssa Hollannin tilastovirasto on tehnyt alustavaa yhteistyötä.

Entäpä kassavirrat ja pankkikorttien transaktiot? Voisivatko ne vuorostaan rikastaa ja ajantasaistaa taloustilastoja?

Hollantilaisten ohella myös US Census Bureaun entinen pääjohtaja Robert M. Groves korosti paradigman siirtymää omassa puheenvuorossaan ”Virallinen tilasto ja big data”. Väestölaskenta, otantamenetelmien käyttö, hallinnollisten aineistojen käyttö ja näiden yhdistely ovat kaikki olleet merkittäviä paradigman siirtymiä virallisen tilastotoimen historiassa. Olisiko iso data seuraava?

Yhdistetty avoin iso data tulee. Big datan kanssa käsi kädessä kulkee tiedon avoimuus (Open Data -aloite) ja yhdistetyt tietovarannot (linked data), jolla tarkoitetaan lähinnä verkon tietovarantojen yhdistelemistä semanttisten, älykkäiden verkkoteknologioiden avulla. Tämän teknologian kehityksessä korostuvat avoimet tiedot ja toisinaan suunnattomat aineistomassatkin.

Datan integraatio eli erilaisten aineistojen ja niiden metatietojen joustava kytkentä vaatii W3C:n (World Wide Web Consortium) pelisääntöihin nojaavia yhteisiä standardeja ja teknologioita. Suomessa johtavaa asiantuntemusta yhdistetyistä tiedoista on Aalto-yliopiston Semanttisen laskennan tutkimusryhmällä Linked Data Finland 2012–2014 -projekteineen. Uraauurtavaa aineistojen linkitystä on muun muassa kansallisessa ONKI-ontologiakirjastopalvelussa.

Big data ja linked open data edustavat yhdessä internetin tulevaisuutta. Ehkä joidenkin vuosien päästä big data on käsitteenä tullut tiensä päähän, mutta sitä ennen on tehtävä paljon työtä ja rohkeasti uudistuttava.

Avataan Big Data! -kirjoituksen toinen osa käsittelee teollisuuden big dataa.

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Kommentit (0 kommenttia)