Suurin osa vaaleihin liittyvästä datasta on julkaistu jossain muualla, esim. ehdokastiedot Oikeusministeriön, aiempien vaalien tulokset Tilastokeskuksen sivuilla, vaalikoneiden datat medioiden sivuilla jne. Alkuperäisten aineistojen metatietoja (esim. linkki alkuperäislähteeseen) kerätään datakatalogiin.
- Alkuperäisaineistojen metatiedot Data Hub Suomi -katalogiin
Alkuperäislähteissä julkaistut aineistot eivät useinkaan ole sellaisenaan helposti yhdisteltävissä ja käytettävissä. Aineistoja siivotaan ja yhdistellään helposti käytettäviksi datapaketeiksi. Muokkaus pyritään teemään mahdollisimman läpinäkyvästi julkistamalla myös muokkaukseen käytettävät rutiinit. Näin mahdolliset virhetilanteet voidaan löytää ja korjata.
- Muokatut aineistot tallennetaan versioidusti GitHubin datavaalit-data repositoryyn
- Siivottujen aineistojen metatiedot Data Hub Suomi -katalogiin
Osaa vaaleihin liittyvästä julkisesta datasta ei ole saatavilla koneluettavassa muodossa verkosta. Tällaisia aineistoja, kuten kuntien luottamushekilöluetteloita hankitaan julkisuuslakiin nojautuvilla tietopyynnöillä, sekä niinsanottujen ruudunraaputin ohjelmien (screen scraper) avulla.
- Hankitut aineistot tallennetaan versioidusti GitHubin datavaalit-data repositoryyn
- Hankittujen aineistojen metatiedot Data Hub Suomi -katalogiin
Muokatut ja hankitut aineistot pyritään julkaisemaan myös Datavaalit REST -rajapinnan kautta, jolloin niiden käyttö ohjelmallisesti on varsin helppoa. Rajapinnan teknisen dokumentaation yhteydessä dokumentoidaan myös tarjottavan datan alkuperä viittaamalla datahubissa oleviin metatietoihin ja GitHubissa julkaistuihin siivottuihin datasetteihin.
- Rajapinnan dokumentaatio Datavaalit.fi rajapinta -sivulle
- Rajapinnan metatiedot Data Hub Suomi -katalogiin
Sateenvarjorepository Datavaalit -projektin dataseteille, jotka on hostattuna erillisissä repositoryissa, jotta yhden repositoryn koko ei kasva hallitsemattomaksi.