Viikon VALO #96

soRvi

soRvi on vapaa työkalupakki avoimen suomalaisen datan analysointiin ja visualisointiin R-ohjelmistolla.

 Suomessakin on alettu kiitettävästi avata yhteiskunnan datavarastoja julkisiksi. Tiedon vapaa saatavuus mahdollistaa niiden käytön ja yhdistämisen aivan uudella tavalla. Suuri määrä pelkkää raakaa dataa ei yksinään kuitenkaan riitä vaan se pitää pystyä käsittelemään ja saattamaan tulkittavaan muotoon. soRvi on Suomi-datan käsittelyyn tarkoitettu R-kirjasto. R on Viikon VALOnakin esitelty tilasto-ohjelma, jonka graafiseksi käyttöliittymäksi soRvin tekijät suosittelevat RStudio-nimistä ohjelmaa.

soRvilla on mahdollista hakea avointa dataa suoraan esimerkiksi Oikeusministeriön, Tilastokeskuksen, Maanmittauslaitoksen ja Datavaalit-sivuston palvelimilta. soRvi sisältää esimerkiksi algoritmeja, jotka siistivät alkuperäisestä lähteestä haetun datan helpommin käsiteltävään muotoon. Alkuperäisestä datasta saattaa esimerkiksi puuttua kenttien otsikkotietoja tai se saattaa olla jaettuna useampaan tiedostoon ja algoritmeillä ne yhdistellään paremmin käytettäväksi kokonaisuudeksi. soRvi siis sisältää muun muassa välineet raakadatan esikäsittelyyn, jotta päästään helposti käsiksi olennaiseen dataan. Kirjastosta löytyvät lisäksi esimerkiksi rutiinit suomalaisen henkilötunnuksen ja siihen sisältyvät tiedon, eli syntymäajan ja sukupuolen, tulkintaan.

soRvi-hanke sai vuonna 2011 ykköspalkinnon Apps4Finland-kisassa Datan avaus -sarjassa sekä virallisessa kisassa että yleisöäänestyksessä.

soRvin käyttöesimerkkejä löytyy Louhos-blogista. Käyttöesimerkkinä muun muassa vertailu puolueiden kunnallisvaaliehdokkaiden aktiivisuudesta sosiaalisessa mediassa. Kannattaa huomioida, että ainakin osassa esimerkeistä on käytetty soRvin "develop"- eli kehityshaaraa, jossa on joitain uusia toimintoja. Muita ohjeita, tietolähteitä ja hakuesimerkkejä löytyy hankkeen wikistä. soRvin lähdekoodit löytyvät Github-palvelusta.

Kotisivu
http://louhos.github.com/sorvi/
Lisenssi
BSD
Toimii seuraavilla alustoilla
Linux, Windows, Mac OS X
Asennus
soRvin asennusohjeet löytyvät työkalupakin kotisivuilta. Sen käyttö vaatii R-ohjelmasta vähintään version 2.15.1. R-ohjelman graafiseksi käyttöliittymäksi suositellaan RStudio-ohjelmistoa.
Käyttöohjeet
Ohjeita soRvin käyttöön löytyy sen kotisivujen kautta.

Teksti: Pesasa
Kuvakaappaukset: Pesasa