Gebruiksvriendelijker maken van de verwerking van open overheidsgegevens

Gebruikerspaden voor het verlagen van de drempel bij portaalgebruik

More Info
expand_more

Abstract

De Nederlandse overheid heeft een opendataportaal (data.overheid.nl). Via dit portaal kunnen dataproviders open data beschikbaar maken voor hergebruik door datagebruikers. De datagebruikers kunnen onderverdeeld worden in standaard eindgebruikers en ontwikkelaars. Hierbij analyseren standaard eindgebruikers open data voor inzichten die hen in staat stellen om nieuwe kansen te herkennen, aan de hand van onder andere ontwikkelingen in de maatschappij. Bijvoorbeeld door aan de hand van cijfers die de netto bevolkingstoename weergeven binnen een regio, de behoefte van nieuwkomers tegemoet te zien in de vorm van nieuw aanbod aan producten. Hiervoor dienen namelijk in een vroeg stadium investeringen te zijn gedaan voor winstgevende activiteiten op de langere termijn. De ontwikkelaars zijn erop gericht om applicaties te ontwikkelen voor eindgebruikers met intuïtieve gebruikersinterfaces die een bepaalde hoofdfunctie vervullen. Hiervoor zijn ontwikkelaars geïnteresseerd in applicaties die samenvallen met ontwikkelingen in de praktijk die een onvervulde informatievraag genereren onder standaard eindgebruikers. Ontwikkelaars zijn bijvoorbeeld: applicatieontwikkelaars, data-analisten en databankontwerpers. Dit onderzoek richt zich op het gebruik van open data door standaard eindgebruikers. De gebruiksvriendelijkheid van het portaal is niet optimaal waardoor kansen onbenut blijven voor eindgebruikers.
Dit komt omdat hulpmiddelen ontbreken bij het effectief verwerken van open data. Ook is het lastig om strategische keuzes te maken bij het selecteren en gebruiken van open data, doordat het aanbod niet gestandaardiseerd is. Er is dus geen eenduidige manier waarop open data kunnen worden ingelezen en gebruikt voor de verrijking met andere datasets en informatie. De drempel voor het gebruik van het overheidsportaal is hoog waardoor het gebruik achterblijft bij de mogelijkheden die open data kunnen bieden aan standaard eindgebruikers.
Het overheidsportaal zou kunnen worden verbeterd op twee vlakken; (i) het aanbod van open data, en (ii) de strategieën vanuit eindgebruikers voor het gebruik van open data. Het uiteindelijk doel is daarbij om effectief gebruik van open data te stimuleren en daarmee te zorgen dat data gebruikt worden op een laagdrempelige manier met behulp van de creativiteit van eindgebruikers. Hierbij hoort de volgende hoofdvraag:
‘Wat moeten portaaleigenaren doen om de drempel voor het gebruik van open data te verlagen?’
Om deze hoofdvraag te kunnen beantwoorden, zijn verschillende onderzoeksmethoden toegepast voor het onderbouwen van de problemen en het komen tot aanbevelingen voor specifieke maatregelen. Het probleem is dat er technische functies ontbreken voor het verwerken van open data op het portaal. Hierbij zijn er verschillen in hoe open data is aangeboden op het portaal. Met behulp van technische functies die door alle datagebruikers kunnen worden gebruikt hoeft een gebrek aan vaardigheden en kennis geen belemmering te zijn om gebruik te maken van open data, waarbij open data verwerkt kunnen worden op basis van een vooropgestelde onderzoeksvraag en/of hypothese. De datagebruikers kunnen hiermee worden gestimuleerd om creatief gebruik te maken van open data zonder dat de drempel voor het gebruik ervan te hoog is.
Allereerst is er een literatuuronderzoek ingezet om een aantal aspecten voor het portaal vast te kunnen stellen, namelijk de benoeming van functies waarmee open data kunnen worden verwerkt, de criteria waarmee verschillen in het aanbod van open data kunnen worden benoemd, en wettelijke richtlijnen uit officiële publicatiebladen op Europees niveau ten aanzien van beleid.
Ten tweede is een empirische analyse uitgevoerd op het huidige portaal voor het bepalen van ontbrekende functies die in de literatuur zijn benoemd.
De derde onderzoeksmethode is een experimentele aanzet tot gedefinieerde gebruikerspaden die nog niet op deze manier zijn gedefinieerd als leidraad voor eindgebruikers. Dit is het eerste onderzoek dat gebruikerspaden definieert en gebruikt voor open data. De gebruikerspaden kunnen worden hergebruikt door gebruikers voor data-analyse in verschillende domeinen en voor verschillende gebruikersdoeleinden.
De vierde gebruikte onderzoeksmethode omvat interviews met deskundigen die onderzoek doen aan de Technische Universiteit Delft. Voor dit onderzoek zijn in totaal zes opendatadeskundigen geïnterviewd. Eén opendatadeskundige is voor aanvang van het literatuuronderzoek geïnterviewd om suggesties te krijgen voor geschikte wetenschappelijke literatuur voor het literatuuronderzoek. De andere vijf deskundigen zijn geïnterviewd voor het evalueren van de ontbrekende functies op het portaal en voor evaluatie van en het verkrijgen van feedback op de gebruikerspaden.

De volgorde en samenhang waarin de verschillende onderzoeksmethoden zijn toegepast is als volgt.
In de literatuur zijn vier hoofdcategorieën van criteria gevonden waarin de verschillen in het aanbod van open data en daarmee gebruiksvriendelijkheid van open data kunnen worden uitgedrukt; (i) formaat, (ii) metadata, (iii) toegang, en (iv) kwaliteit (Dawes et al., 2016).
Tevens zijn functies geïdentificeerd die onder andere kunnen worden gebruikt bij het verzamelen, analyseren en visualiseren van open data. Met een empirische analyse van het huidige overheidsportaal is bepaald welke functies uit de literatuur ontbreken. Deze ontbrekende functies zijn vervolgens geëvalueerd na interviews met vijf deskundigen met behulp van enquêtevragen waarmee het belang van elke ontbrekende functie is vastgesteld. Verder zijn er EU-richtlijnen geanalyseerd om maatregelen te formuleren waarmee portaaleigenaren met de wettelijke richtlijnen kunnen omgaan. Deze richtlijnen bepalen de verplichtingen bij het aanbieden van open data op een portaal voor de verantwoordelijke overheden.
Vervolgens zijn op een experimentele manier gebruikerspaden ontworpen met behulp van data-analysetechnieken uit literatuur. Het gebruik van open data kan op een gestructureerde manier beschreven worden doordat strategische keuzes bij het analyseren van open data bepalend zijn voorgestelde doelstellingen. De gebruikerspaden geven een reeks van activiteiten aan om open data te verwerken voor een bepaald doel. De gebruikerspaden zijn gedefinieerd in de vorm van procedures bestaande uit te volgen stappen om vooropgestelde doelen te kunnen bereiken. De manier waarop de gebruikerspaden zijn gedefinieerd is experimenteel doordat ze nog verder moeten worden verbeterd aan de hand van onderzoek naar specifieke gebruikersbehoeften bij het analyseren van open data. Deze behoeften moeten vervolgens ook nog worden vertaald naar taken die vallen binnen een gebruikerspad. De initiële gebruikerspaden zijn, met behulp van enquêtes gericht aan opendatadeskundigen, onderzocht op gebruiksvriendelijkheid en verbeteringsmogelijkheden.

Met de volgende conclusies en aanbevelingen kan het aanbod van open data en het portaal gebruiksvriendelijker worden verbeterd.

Er zijn vier categorieën van criteria gevonden die kunnen worden gebruikt om het aanbod van open data op het portaal te verbeteren:
1. Formaat: verschillende voorwaarden voor het gebruik van open data, bijvoorbeeld waarbij software als gereedschap is benodigd om er toegang tot te krijgen. Voorbeeld: gelinkte en machine-leesbare open dataformats stellen datagebruikers in staat om direct in actie te komen met data-analyses zonder aparte preparatietaken voor het koppelen van datasets
2. Metadata: de exacte beschrijving van databronnen met een gezamenlijke context voor alle datagebruikers, in de vorm van een aparte informatiestructuur en relevante trefwoorden voor de vindbaarheid van datasets.
3. Toegankelijkheid: verschillende bestandsformaten waarin de open data worden aangeboden, inclusief de mogelijkheid om door datasets te navigeren via webpagina’s, zonder de open data eerst te moeten downloaden.
4. Kwaliteit: omgang met kwaliteitsverschillen tussen datasets waarmee ook de kwaliteit van data-analyses wordt beïnvloed indien deze niet worden gecorrigeerd met behulp van beschikbare technieken of door de dataproviders.
De open data worden beschouwd in de vorm van datasets en kunnen hierbij worden onderverdeeld in gestructureerd on ongestructureerd. Voorbeelden van gestructureerde open dataformaten op het huidige portaal zijn: XML, JSON, CSV, en andere dataformaten. Voorbeelden van ongestructureerde open data zijn PDF-documenten, video, audio, foto’s, brieven, beleidsnota’s en andere gegevens die in verschillende dataformaten worden aangeboden. Aangezien het nut in open data gelegen is in de mogelijke koppeling tussen datasets, is er een voorkeur voor gestructureerde machine-leesbare datasets die snel elektronisch verwerkt kunnen worden. Daarmee kunnen datasets namelijk efficiënt gelinkt kunnen worden met andere datasets voor waardevolle data-analyse doeleinden. Bij gestructureerde datasets kunnen op basis van attributen subsets worden gefilterd uit een dataset. Dit kan aan de hand van een querytaal zoals SQL waarbij de datasets in een relationele database worden ingeladen en gekoppeld met andere gegevens. Hiermee kunnen opdrachten worden uitgevoerd met de wiskundige logica die de samenhang tussen gegevens representeert en die tot nieuwe inzichten kan leiden voor eindgebruikers. Oftewel, het analyseren en koppelen van open data is gemakkelijker indien open data gestructureerd worden aangeboden. Het kost meer moeite om ongestructureerde open data te analyseren en te koppelen aan andere gegevens doordat de open data moeten worden afgestemd op dezelfde gegevenstypen. De gebruikte gegevenstypen zijn afhankelijk van de verschillende taken die door datagebruikers worden uitgevoerd voor de gewenste inzichten. De vindbaarheid van datasets kan worden vergroot door aparte informatiestructuurbeschrijvingen toe te voegen, bijvoorbeeld in de vorm van een doelenboom, ter verduidelijking van de inhoudelijke betekenis ten opzichte van andere open data. De toegankelijkheid is hierbij de mogelijkheid om door open data te navigeren zonder het direct te hoeven downloaden naar een applicatie. Bijvoorbeeld door middel van gestandaardiseerde HTML-webpagina’s. Ten slotte is de kwaliteit afhankelijk per situatie waarin gebruik wordt gemaakt van open data en moet er gelegenheid zijn om dit frequent te controleren door eindgebruikers via het portaal. Bijvoorbeeld met behulp van technieken die helpen om de kwaliteit van data te kunnen beoordelen voor het beoogde gebruik ervan.

De dataproviders en portaaleigenaren kunnen de EU-richtlijnen toepassen via open databeleid met behulp van de volgende drie maatregelen:
1. Privacygevoelige gegevens anonimiseren ter bescherming van personen.
2. Kostentoerekening op basis van de hoeveelheid gegevens toepassen via licenties. Bijvoorbeeld kosten in rekening brengen voor het gebruik van webservices, maar niet voor het gebruik van open data in het archief van het portaal.
3. Via onlinekanalen contact zoeken met gebruikers om te vragen wat men wil weten van de overheid en hierop inspelen door het aanbieden van nieuwe open data op het portaal.
Door middel van de hierboven genoemde maatregelen kunnen portaaleigenaren hun portaal veiliger en gebruiksvriendelijker maken. Met deze maatregelen kunnen portaaleigenaren het aanbod van open data beter laten aansluiten aan specifieke behoeften van datagebruikers.

De empirische analyse van het portaal op basis van de functies uit de literatuur laat zien dat de volgende functies (Zuiderwijk et al., 2014; Zuiderwijk, 2015), ontbreken in het huidige portaal:
1 Analyseren van open data
2 Gebruikerspaden kiezen
3 Visualiseren van data-analyse resultaten
4 Volgen van datagebruikers
5 Analysebevindingen delen via sociale media
6 Versiebeheer
7 Data kwaliteitsbeheer
8 Tutorial aanbieden
9 Interactiemechanisme
Deze ontbrekende functies kunnen een gebruiksvriendelijke verwerking van open data op het portaal stimuleren met gebruikerspaden als leidraad.

Er zijn vier gebruikerspaden gedefinieerd op een iteratieve manier als experiment voor het volgen van stappen op basis van vooropgestelde onderzoeksvragen en/of hypothesen. Dit is een experimentele en daardoor uitbreidbare reeks stappen die kan worden gevolgd om inzichten uit open data te verwerven. De gebruikerspaden stellen kennis paraat, waardoor datagebruikers gestructureerd te werk kunnen gaan. Het is geen garantie voor succes omdat dit ook afhangt van de vaardigheden met betrekking tot het verwerken en testen van de open data. De vier gebruikerspaden zijn gefocust op de volgende gebruikersbehoeften bij open datagebruik:
1. Beschrijven van samenvattende informatiewaarden van datasets, om beslissingen in de toekomst te onderbouwen.
2. Classificeren van gegevens, om in de vorm van voorspellende modellen, wat-als vragen te stellen voor het doorrekenen van verschillende scenario’s.
3. Trendontwikkelingen onderzoeken met tijd als onafhankelijke variabele of index.
4. Groeperen of scheiden van deelpopulaties met gemeenschappelijke kenmerken uit een dataset met datapunten om relaties tussen variabelen te onderzoeken.
De belangrijkste aanbeveling is dat de portaaleigenaren de drempel kunnen verlagen door de negen ontbrekende functies te implementeren in het portaal. De gebruikerspaden kunnen gebruikt worden om de drempel bij het gebruik van open data verder te verlagen. Het is te verwachten dat datagebruikers, met behulp van de functies en gebruikerspaden, minder moeite en tijd kwijt zijn door leidend gebruik van open data.