maanantai 12. marraskuuta 2012

Avoin data, avoimet välineet ja avoimet haasteet


Leo Lahti (vas.) ja Joona Lehtomäki.
Kuva: Daniel Schildt / autiomaa.org (CC BY-ND 3.0)
Joona Lehtomäki & Leo Lahti  

Avoin data on kovassa nosteessa. Useat julkisen sektorin toimijat, kuten Maanmittauslaitos ja Suomen ympäristökeskus, avaavat julkisin varoin kerättyjä aineistoja vapaaseen käyttöön. Laaja saatavuus ja käyttö ovat omiaan nostamaan yhteisten tietovarantojemme arvoa.

Avaaminen on kuitenkin vasta ensimmäinen askel tiedon täyteen hyödyntämiseen. Aineistot ovat usein hankalassa formaatissa ja niitä pitää yhdistellä ja siistiä, jotta ne olisivat käyttökelpoisessa muodossa esimerkiksi journalisteille tai sovelluskehittäjille. Avoimen datan ei myöskään tarvitse olla peräisin virallisista tietokannoista, vaan sitä voi kertyä kansalaisten oman toiminnan tuloksena. Hyvä esimerkki joukkoistetuista, kansalaisten keräämästä datasta on paikkatietokanta OpenStreetmap Suomi. Olipa datan alkuperä mikä tahansa, sen jalostaminen käyttökelpoiseen muotoon vie tyypillisesti hyvin paljon aikaa. Suuri osa tästä työstä on kertaluontoista ja voitaisiin automatisoida ja jakaa tarvitsijoille.

 Tieto käyttöön talkoovoimin

Verkossa tiedon jalostaminen käyttökelpoiseen muotoon voi tapahtua uusin vapaaehtoisuuteen perustuvin keinoin. Yksi esimerkki tästä on Louhos, vuonna 2011 perustettu yhteisö, joka ratkoo vapaaehtoisin talkoovoimin avoimen datan käsittelyyn liittyviä ongelmia. Se pyrkii edistämään julkisten tietovarantojen saatavuutta ja tehokasta käyttöä kehittämällä avoimen datan käsittelyyn ja analysointiin soveltuvia työkaluja. Yksi Louhoksen tuottamista työkaluista on sorvi, R-ohjelmointikielellä toteutettu suomalaisen avoimen datan työkalupakki, jonka välineillä suomalaisen yhteiskunnan avoimet datavirrat voi yhdistää nykyaikaisiin analyysi- ja visualisointimenetelmiin.

Työkalujen lisäksi Louhos tarjoaa yhteisön, jossa avoimesta datasta kiinnostuneet voivat osallistua talkoisiin. Hanke on avoin eikä aiheesta kiinnostuneen tarvitse välttämättä olla koodari, sillä osallistua voi monella tavalla. Esimerkiksi dokumentaation kirjoittaminen, työkalujen testaaminen ja aineistolähteiden kartoittaminen ovat kaikki tehtäviä, joissa ei välttämättä tarvitse kirjoittaa riviäkään koodia. Yhteisö tapaa silloin tällöin kasvokkain, mutta pääasiassa keskustelu tapahtuu verkon välityksellä.

Avoimen datan työkalut käytössä

Louhos on ollut aktiivisesti mukana Datavaalit-hankkeessa, joka on pysyvä ja ajan myötä karttuva yhteiskunnalliseen päätöksentekoon liittyvän datan kokoelma. Tänä syksynä hanke on keskittynyt kunnallisvaalien ehdokastietojen ja tulosten keräämiseen ja analysointiin.

Avoimesti saatavilla olevan vaalidatan käsittelyyn liittyy monia ongelmia. Esimerkiksi Oikeusministeriön julkaisemia ehdokastietoja on sellaisenaan hankala käyttää, koska aineisto on jaettu useisiin tiedostoihin, kenttien otsikot puuttuvat, ja tiedostojen sisältö vaatii putsaamista. Tämä on kuitenkin kertaluontoinen toimenpide, johon tarvittava lähdekoodi voitiin pistää jakoon sorvi-kirjastoon ja siistitty data saataville Datavaalit-palvelimelle. Työkalut ja niiden avulla jalostetut helppokäyttöisemmät tiedot saatiin näin kaikkien käyttöön.

Kunnallisvaalien alla Datavaalit-sivuille rakennettiin sovellus, joka kerää ehdokkaiden Facebook- ja Twitter-päivitykset yhteen tietokantaan. Näin ehdokkaiden päivitysaktiivisuudesta muodostui aineisto, jonka julkistamisesta Datavaalien Facebook-ryhmässä kesti vain muutama tunti kunnes verkossa julkaistiin ensimmäiset vertailut puolueiden aktiivisuudesta sosiaalisessa mediassa (kuva 1).

Yhteiskunnallisen datan ja sen käsittelyyn sopivien välineiden avaaminen on näin kasvattamassa päätöksenteon läpinäkyvyyttä ja tuottamassa uusia osallistumisen tapoja. Toimintatapojen kehittyessä ja yhteisön kasvaessa osallistumiskynnys madaltuu, ja yhä useammat voivat olla mukana luomassa uutta yhteiskunnallisen avoimuuden kulttuuria.

Kuva 1: Eri puolueiden Facebook- ja Twitter-aktiivisuus vuoden 2012 kunnallisvaalien alla. Päivitykset on koostettu Datavaalit-hankkeen tuottamalla sovelluksella ja normalisoitu kunkin puoleen ehdokkaiden kokonaislukumäärällä. Täällä kuva suurempana.
Kohti avoimempaa tulevaisuutta

Mikä sitten saa ihmiset käyttämään vapaa-aikaansa ilta toisensa jälkeen Louhoksen ja Datavaalien kaltaisten projektien kehittämiseen ja pyörittämiseen? Demokratian avoimuuden ja läpinäkyvyyden nimissä on tärkeää, että päätöksentekoon liittyvä data on avointa, mutta tämä on vasta ensimmäinen askel datan jalostamiseen aidosti käyttökelpoiseksi tiedoksi. Louhoksen ja Datavaalien kaltaiset projektit tuovat esiin konkreettisia kehitystarpeita yhteiskunnallisen datan avaamisessa ja ovat mukana kehittämässä uusia toimintatapoja sekä osoittamassa, että avattavalle datalle on käyttöä.

Kirjoittajat ovat biologisten alojen ja erityisesti laskennallisen analyysin tutkijoita, jotka vapaa-ajallaan toimivat aktiivisesti Louhos-projektin ja Suomalaisen avoimen datan yhteisön parissa

2 kommenttia :

  1. "Avaaminen on kuitenkin vasta ensimmäinen askel tiedon täyteen hyödyntämiseen" - tärkeä huomio ja siksi onkin pidettävä päähuomio avaamisen järjestelmällisyydessä jatkossa. Nyt ollaan vasta alkutaipaleilla siinä, että nähdään edes jotain tietosisältöjä, mutta kuten Inspiren kaltaisessa massiivisessa paikkatiedon avaamiprosessissa on opittu: tärkeää on tehdä järjestelmällistä työtä ja luoda infrastruktuuri tiedon avaamiselle! Näkymien aukeaminen on vasta "rakennuksen perustus", jonka päälle tulisi olla hyvä rakentaa. Jatkossa tämä näkymä tullee vaikuttamaan organisaatioiden tiedonhallinnan kehitykseen, koska se on avoimen keskustelun alaista. Ei enää tietoa tiedon vuoksi, vaan hyödyntämisen moninaisiin tarkoituksiin! Ei enää myöskään hankalaa ja aikaavievää konversioiden ja muokkaamisten ajanhukkaa, vaan rakenteista, kuvattua ja laadukasta tietoa!
    Terveisin,
    Outi Hermans, Helsingin kaupunki

    VastaaPoista
  2. Täynnä hyviä näkökulmia oleva postaus. Olen kuullut tästä OpenStreetMap aikaansaannosta. Mielenkiinnolla seuraan miten tämä projekti kehittyy tulevaisuudessa.

    VastaaPoista