. . . of het verhaal van een ooievaar die de spoorwegen gebruikt om naar huis te komen; het verhaal van het parlementslid dat het vaakst het woord “ik” gebruikt; het verhaal van Mies Bouwman en “Open het dorp”; en de vele persoonlijke geheimen die liggen opgeslagen bij het CBS.’
Voor wie, zoals ik, werkt aan de voorwaardenscheppende kant van de digitale data (beleid, financiën, enzo) is het altijd stimulerend als je mag snuffelen aan wat er helemaal aan de andere kant van de pijplijn uit al die noeste arbeid komt – wat duurzaam beheer van digitale gegevens uiteindelijk oplevert. Wat we eraan hebben. Afgelopen donderdag 2 december was daar ruim de gelegenheid voor tijdens het symposium dat Data Archiving and Networked Services (DANS), het digitale archief voor de alfa- en gammawetenschappen, in De Glazen Zaal in Den Haag organiseerde – om te vieren dat het vijf jaar bestond, maar ook omdat de eerste dataverzamelingen die DANS beheert vijfenveertig jaar geleden werden aangelegd. Met trots meldde DANS-directeur Peter Doorn (foto links) aan het begin van het symposium dat de allereerste dataset in DANS EASY, P0001, een analyse van de TV/radio marathon van Mies Bouwman rond ‘Open het dorp’, nog steeds toegankelijk is en ook nog gebruikt wordt. Daarna liet Doorn vooral het woord aan de gebruikers van de data.
Ewoud Sanders: super user
Journalist en taalhistoricus Ewoud Sanders mag met recht een super user worden genoemd. Hij liet zien hoe je uit een veelheid aan bronnen op internet je eigen digitale bibliotheek kunt bouwen. De zijne bevat inmiddels 4,5 miljoen pagina’s. Zijn motivatie? ‘De psychologie van het zoeken’ – oftewel: als je alleen maar analoge bronnen gebruikt heb je de neiging om steeds weer naar dezelfde bronnen te grijpen. Sanders noemde het auteursrecht als zijn belangrijkste hinderpaal, maar veel leek hij zich er niet van aan te trekken. Ik vond het indrukwekkend, maar enkele onderzoekers onder het publiek vonden het allemaal toch niet systematisch genoeg om wetenschappelijk verantwoord te zijn. Ik moest denken aan afgelopen maandag bij de Museumvereniging: ook hier dus nog steeds spanning tussen de web 2.0-generatie en de traditie.
Over hoe de ooievaar energiezuinig naar huis vliegt
Willem Bouten van de Universiteit van Amsterdam liet het publiek weten dat er vrijwel iedere dag op Schiphol wel een ongeluk plaatsvindt tussen vliegtuigen en vogels. Misschien hadden we dat liever niet geweten. Maar Bouten doet er ook wat aan. Door gegevens over vogelmigraties uit allerlei verschillende bronnen samen te voegen in virtuele laboratoria heeft zijn onderzoeksgroep bijgedragen aan een ‘Bird Avoidance Model’ dat de Luchtmacht in staat stelt om trainingsschema’s aan te passen aan de vogeltrek en daarmee ongelukken te voorkomen. Dat is mooi en zelfs praktisch nut. En ja, als zo’n ooievaar eenmaal een GPS-zendertje om heeft, dan kom je er ook achter dat hij bij voorkeur over de spoorrails terugvliegt naar zijn nest, omdat de zwarte stenen onder de spoorstaven voor een flinke portie thermiek zorgen. En dat scheelt weer vleugelbewegingen.
Van oude bomen en data die niet voorbij mogen gaan
Ik had er nog nooit van gehoord, van de ‘dendrochronologie’, de boomtijdkunde, maar sinds de toespraak van Esther Jansma van de Rijksdienst voor Cultureel Erfgoed (RCE) ben ik toch anders aan gaan kijken naar wat je allemaal aan informatie kunt halen uit oud hout: waar het vandaan kwam, hoe oud het is, waarvoor het gebruikt is, en ga zo maar door. Een probleem is wel dat er nauwelijks geld was voor het opslaan van de culturele data die je uit bomen kunt halen. Maar met de Digital Collaboratory for Cultural Dendrochronology in The Low Countries’ (DCCD) en het TRiDas dataformaat lijkt verbetering op dit front nog slechts een kwestie van tijd.
Privacyzorgen, ons slavernij-imago aan diggelen en een interpellatiegraaf
Johan van Rooijen van het CBS moest heel erg zijn best doen om zijn publiek ervan te overtuigen dat die enorme hoeveelheden privacygevoelige gegevens die het CBS verzamelt ook veilig worden opgeborgen en alleen anoniem gebruikt mogen worden. Het leek er even op dat de bezoekers van het symposium zich meer zorgen maakten om hun privacy dan dat ze de onderzoeksmogelijkheden zagen van al die bewaarde data. Henk den Heijer maakte korte metten met ons imago als belangrijke slaventransporteur in de zeventiende eeuw door aan de hand van data te bewijzen dat wij ‘slechts’ 5% van de handel in handen hadden. Wetenschappelijk onderzoek kan dus ook weleens meevallen, hoewel …
Maarten Marx van PoliticalMashup analyseert enorme hoeveelheden tekst, zoals de Handelingen der Staten Generaal die momenteel gedigitaliseerd worden. Door 'woordjes te tellen' kwam hij erachter dat het Rita Verdonk is die het woord ‘ik’ het meest in de mond neemt. Marx zet de interactie uit die handelingen bijvoorbeeld om in een interpellatiegraaf, een analyse van de interactie tussen parlementsleden. Cabaretier Joop Vos (foto links onder), die het symposium vanuit een hoek zorgvuldig volgde en tijdens zijn intermezzo’s op de korrel nam, liet zich hierdoor inspireren en maakte zijn eigen analyse van de interactie tijdens het symposium (foto linksboven).
‘Data wants to be free’
De slotakte werd verzorgd door Frank van Harmelen – een meer bevlogen ontnuchtering kan ik me nauwelijks voorstellen. Waar we tijdens de vorige lezingen nog het gevoel hadden gekregen dat iedereen die data zoekt die ook kan vinden (ook al kost het soms wat moeite), maakte Frank van Harmelen snel een einde aan die illusie: Er is van alles, maar het is niet geïntegreerd en dus kan de wetenschap er niet bij. De oplossing? Web 3.0, het semantisch web. Waar web 1.0 een kwestie was van ‘plaatjes en praatjes’, web 2.0 dat van het niet alleen lezen maar ook schrijven, moet web 3.0 dat van de data worden, niet van links tussen webpagina’s, maar van links naar de originele data, leesbaar door computers, en daardoor nuttig voor mensen. De wonderolie is de standaardsyntax RDF die ‘dingen’ beschrijft en de ‘relaties tussen dingen’. Voorwaarde voor web 3.0 als ‘wetenschapsversneller’ is wel dat zoveel mogelijk data vrij op het web beschikbaar komt. Of, zoals van Harmelen het zei: ‘Data wants to be free!’.
De toekomst van DANS
Er is dus nog genoeg werk te verzetten. Peter Doorn wil dat werk graag oppakken. Hij verwees naar het NCDD-rapport Toekomst voor ons digitaal geheugen en gaf aan dat in de strategie waar het NCDD-bestuur momenteel aan werkt de rol voor DANS, dat momenteel alleen werkt voor de alfa- en gammawetenschappen, weleens disciplineonafhankelijk zou kunnen worden. Daarover wordt momenteel overlegd, onder andere met het Ministerie van OCW.
Geen opmerkingen:
Een reactie posten