Duurzame toegang (long-term access): SURF onderzoeksdata forum (3): praktische vragen

donderdag 15 oktober 2009

SURF onderzoeksdata forum (3): praktische vragen

Bij het forum waren twee concrete vragen binnengekomen, die als case studies worden voorgelegd. Dit is misschien wel de mooiste manier van kennisdelen en hopelijk met concreet nut voor zowel de aanvrager als het forum.

Ira van den Broek van het Koninklijk Nederlands Instituut voor Zeeonderzoek (NIOZ) presenteert de case Data management voor het International Polar Year (IPY). Het IPY is een enorm netwerk van grote en kleine projecten, waarvan Nederland er enkele voor zijn rekening nam (zie NWO website). Alle datasets uit die onderzoeken moeten nu gevonden, opgeslagen, geregistreerd en (in open access) gepubliceerd worden. En wel zo snel mogelijk, want over vijf jaar zien die polen er totaal anders uit en heb je er weinig meer aan.

Al die projecten hebben IT-toepassingen gebouwd, er is een oerwoud aan portals ontstaan, en men wil graag interoperabiliteit, maar ieder heeft weer 'zijn eigen standaard'. Wat moet Ira gaan doen: een data service ontwikkelen die via internet te benaderen is en die aan een aantal eisen voldoet (interface met GCMD portal, data opslag op 1 plaats, maar zo vindbaar mogelijk; footprint; data downloadbaar in ASCII, NetCDF, Excel; mogelijkheid tot downloaden; metadata harvesten via OAI-PMH; en er moet een diversiteit aan data inpassen). Moet Ira een nieuwe portal gaan bouwen?

rob Rob Grim van de Universiteit van Tilburg definieert data management als alles wat te maken heeft met opslag, archivering, doorzoekbaar en vindbaar maken van gegevens, het bieden van toegang tot gegevens en kennis over hoe wetenschappelijke gegevens aan de onderzoeker moeten worden aangeboden. Rob is data librarian en wil onderzoekers ondersteunen. Maar hij wordt nog weleens gehinderd door praktische zaken: bij de UvT heeft iedere onderzoeker bijvoorbeeld maar 250 MB (!) opslagruimte . . .

Rob signaleert dat we tot nu toe veel aandacht besteed hebben aan de infrastructuur, maar veel te weinig aan de services die daarop moeten draaien. Hij merkt op dat het belangrijk is om goed na te denken over de manier waarop we de data gaan presenteren om ze herbruikbaar te maken.

Hij presenteert de case van een denkbeeldige multidisciplinaire onderzoeksgroep die gegevens uit een bepaalde periode gezamenlijk wil gaan gebruiken en het resultaat wil publiceren. Hoe stel je een plan daarvoor op? Wat is je advies aan die onderzoeksgroep? Welke knelpunten signaleer je? Het forum heeft 40 minuten om deze vragen te beantwoorden ... Dat valt niet mee. Ook al omdat je in de praktijk natuurlijk naar maatwerk zoekt, doorvraagt wat de onderzoekers weten/kunnen/willen en daarop een datamanagementplan baseert. De adviezen van het forum komen dus vooral daarop neer: vraag door en door over zowel techniek als 'hergebruiksdoel' (is dat een Scrabblewoord?) als juridische zaken als, niet te vergeten, wat kost het en wie gaat er betalen? Ook belangrijk: goed afspreken wie precies waarvoor verantwoordelijk is.

Forumvoorzitter Wilma Mossink stelt tegen vijf uur de hamvraag: Heeft aanvrager Ira van den Broek iets aan de discussies gehad? In elk geval een bevestiging dat hij checklisten op wil gaan stellen om daarmee naar onderzoekers te gaan. En, benadrukt hij, we moeten ernaar streven als datacentra om ons werk helemaal aan het begin van het traject te starten, niet als een onderzoek eenmaal op gang is gekomen. Want dan heb je al veel kansen gemist.

Geen opmerkingen:

Een reactie posten