dinsdag 19 april 2011

Webarchivering in Nederland: de status anno 2011

overzichtsfoto
Hoe staat het ervoor met webarchivering in Nederland? ; en: Wat moeten we doen om webarchivering in Nederland beter te organiseren? – dat waren de centrale vragen die gisteren, 18 april 2011, op de rechthoekige tafel lagen van de NCDD rondetafelbijeenkomst webarchivering.
Het zal de lezer niet verbazen dat wij, ondanks de hoge opkomst en de enthousiaste discussies, vraag twee in één middag niet hebben kunnen beantwoorden. Maar de beantwoording van vraag één is voor mij een stuk dichterbij gekomen.
Omdat de NCDD een sectoroverkoepelende organisatie is, waren er deelnemers uit overheidsorganisaties (‘zorgdragers’ in Archiefwettermen), uit archieven, bibliotheken, de wetenschap, een museum, en enkele commerciële aanbieders van webarchiveringsdiensten. Omdat bovendien de insteek van de deelnemers kon variëren van conceptueel/cultuurhistorisch tot héél praktisch, had ik tijdens mijn inleiding al spraakverwarringen aangekondigd, waarna ik de voorzittershamer direct overdroeg aan René Voorburg van de KB. Ik moest immers kunnen bloggen …. ;-)

Websites archiveren is iets anders dan websites verzamelen (collectievorming)


web5In de loop van de middag kwamen we erachter dat er verschillende vormen van webarchiveren zijn, en dat die in aanpak nogal van elkaar verschillen. Daarom krijgen ze hier allebei een eigen benaming:
  • websites archiveren door overheidsdiensten (zorgdragers) is het pure archiveren conform de Archiefwet om verantwoording af te kunnen leggen over het handelen van de overheid. Het gaat hier om organisaties die hun eigen website archiveren, en dat in principe (zouden moeten) doen elke keer als de site verandert. Je moet immers kunnen aantonen wat er op 19 april 2011 aan informatie voor de burger op de site stond.
  • websites verzamelen (collectievorming) is meer een activiteit van erfgoedinstellingen zoals de Koninklijke Bibliotheek. Het doel is niet verantwoording afleggen maar om toekomstige onderzoekers te dienen met informatie over ons huidige tijdsgewricht. Het gaat hier om instellingen die (vele) websites van anderen harvesten en dat in principe één of twee keer per jaar doen.
Ik ga op allebei wat dieper in:

Websites archiveren: ‘Websites zijn archieven in de zin van de Archiefwet’


Voor wie er nog aan mocht twijfelen: er waren drie archiefinspecteurs (Esther Balkestein, Jacko de Groot en Ingmar Koch) in de zaal en een zelfstandig overheidsadviseur (Erika Hokke) en die waren het over één ding roerend eens: websites zijn archieven in de zin van de Archiefwet. En dus, zo benadrukte Maurice van den Dobbelsteen van het Nationaal Archief, hebben overheidsinstellingen (‘zorgdragers’) zelf de plicht om die te archiveren. Dat gaat het Nationaal Archief niet voor ze doen. Het NA ontfermt zich pas over websites nadat ze zijn overgedragen. Momenteel staat daar twintig jaar op, en Maurice gaf direct toe dat die overdrachtstermijn in de digitale 21ste eeuw niet meer kan. Daarom komt er nu een beweging op gang waarbij het Nationaal Archief, maar ook lokale archieven, zullen proberen invloed uit te oefenen op de productiefase van digitale documenten zoals websites, om ervoor te helpen zorgen dat ze duurzaam worden bewaard. Aan de verantwoordelijkheid van de zorgdrager doet dat echter niets af.

Maar, zo verwoordde Bente Steffenssen van de Gemeente Bergen op Zoom het dilemma van veel collega’s: ‘Ik heb een vage opdracht om webarchivering op te starten, maar ik kan nergens concrete handvatten vinden en heb dus de neiging om het voorlopig maar in de ijskast te zetten. Begrijpen jullie dat?’ Waarop Ingmar Koch (archiefinspecteur) en Maurice van den Dobbelsteen (NA) eenstemmig antwoordden: ‘Officieel mogen we dat niet begrijpen.’

Maar simpel is het niet. Jaap-Jan Bakker van het Gewest Gooi- en Vechtstreek organiseerde onlangs een marktconsultatie. Daaruit kwam als conclusie dat geen enkele commerciële aanbieder een oplossing heeft die past in de huidige manier van werken. Websites kunnen natuurlijk wel worden gearchiveerd, maar als losse objecten, niet als onderdeel van het proces dat voor verantwoording zo belangrijk is. ‘Maar’, benadrukt Ingmar Koch, ‘dan doe je tenminste iets, en alles is beter dan niets.’ In dat licht keek hij ook naar de methode die het UWV momenteel hanteert: na iedere wijziging wordt de webpagina in een Word-document gevat en gearchiveerd. Niet ideaal, maar in het kader van roeien-met-de-riemen-die-je-hebt tenminste een vastlegging.

web9
Toch moet de conclusie zijn dat er bestuurlijk nog steeds weinig aandacht is voor webarchivering, en dat er ook veel te weinig middelen en menskracht voor wordt ingezet. Marcel Prive van GWCrossmedia (o.a. Archiefweb) gaf aan dat er veel kan, maar dat organisaties vaak schrikken van de kosten. Men is gewend geld uit te geven voor fysiek beheer, maar niet voor digitaal beheer. Grote organisaties als NA, KB en NCDD doen hun best om de urgentie aan te tonen, maar dat blijft lastig.
Wat kunnen zorgdragers zelf doen? Een praktisch handvat: ervoor zorgen dat de ontwerpers van hun websites de Webrichtlijnen van de overheid kennen en toepassen. Dat voorkomt veel technische problemen achteraf. Ook het goed archiveren van het bronmateriaal voor de website is een alternatief dat kan werken.

 

Websites verzamelen: problemen met auteursrecht en kwaliteitscontrole


Organisaties die websites verzamelen vanuit een cultuurhistorisch perspectief, hebben weer andere problemen, om te beginnen het auteursrecht. Een kopie maken en die weer opnieuw ter beschikking stellen (wat deze organisaties willen) mag volgens het auteursrecht niet zonder toestemming. Er is een uitzondering voor on-site inzage, maar alle drie de aanwezige verzamelaars (KB, Nederlands Documentatie Centrum Politieke Partijen/Archipol en het Gemeentearchief Rotterdam met zijn cultuurhistorische Rotterdamcollectie) willen uiteindelijk hun verzamelingen online tonen. Zo ver is het trouwens nog niet. KB, Archipol en GAR zijn momenteel nog besloten verzamelingen. De KB gaat later dit jaar voorzichtig van start met on-site openstelling. Om zich auteursrechtelijk in te dekken, hanteert de KB een opt-out regeling: beheerders van websites krijgen een melding dat de KB ze wil harvesten. Als men dat niet wil, kan men dat aangeven. Archipol heeft overeenkomsten met de politieke partijen die geharvest worden, maar zo nodig wil men er wel toe overgaan om een naam te verwijderen uit privacy-overwegingen.


Ten behoeve van de KB-harvester voor één keer zonder mouse-over: vlnr René Voorburg (KB, gespreksleider), Marcel Prive (GWCrossmedia), Peter de Bode (KB), Peter Tervooren en Marleen Pijpelink (Atos/Archipol), en vele anderen

Zouden de instellingen erbij gebaat zijn om met zijn allen wat minder krampachtig met het auteursrecht om te gaan en zich uit cultuurhistorisch belang dezelfde rechten toeëigenen als bijvoorbeeld Google en het InternetArchive? Henk Druiven (Archipol): ‘Er is nog nooit iemand om deze reden in de gevangenis beland …’ Wellicht iets om in NCDD-verband over na te denken.
De KB harvest momenteel 3.000 websites, ca. twee maal per jaar. Op termijn moeten dat er jaarlijks 10.000 worden. Het selectiecriterium van de KB is het belang voor de Nederlandse samenleving en geschiedenis. Dat is, zoals bij alle cultuurhistorische verzamelingen, een subjectieve keuze van de verantwoordelijke medewerkers (w.o. Peter de Bode, foto boven). De KB probeert geen websites te verzamelen die elders worden opgenomen (Rotterdam, Archipol). Andere landen, zoals Frankrijk en Zweden, doen hele domeinharvests. De KB acht dat organisatorisch en financieel voor Nederland niet haalbaar, ook al omdat het .nl-domein naar schatting 4 miljoen urls domeinnamen  heeft [met dank aan Bob Coret voor de correctie].

De na'zit': vlnr René Voorburg, Trudie Stoutjesdijk (KB), Vincent Robijn (GAR) - en met NCDD-boekje
Het harvesten van duizenden websites van onbekende makelij levert technisch veel problemen op. Daarom worden alle harvests handmatig gecontroleerd. Als bijvoorbeeld de plaatjes niet zijn meegekomen van een kunstenaarswebsite, wordt de harvest afgekeurd. In internationaal verband werken de o.a. de KB en het NA aan manieren om dit werk (deels) te automatiseren.

Andere meer op cultuurhistorie gerichte instellingen die aanwezig waren oriënteren zich nog. Beeld en Geluid onderzoekt momenteel diverse scenario’s voor websites verzamelen, in eerste instantie de websites van de omroepen, maar ook audiovisueel materiaal in breder verband, en social media. Dat is heel dynamische content, die men diep zou willen verzamelen, en er zijn nog geen kant-en-klare oplossingen voor het harvesten en weer beschikbaar stellen. Ook auteursrechtelijke aspecten moeten nog bekeken worden.

Het Friese Tresoar werkt samen met de KB bij het selecteren van Friese websites. Het NIOD beheert een aantal websites en laat er enkele door de KB harvesten. Technisch bleek het niet mogelijk ze allemaal bij de KB onder te brengen.

 

Duurzaamheid nog een groot technisch probleem


waybackDe KB, Archipol, diverse zorgdragers, het GemeenteArchief Rotterdam en diverse commerciële aanbieders zijn nu in staat om de meeste websites binnen te halen.  De KB gebruikt voor het harvesten de Web Curator Tool, een open-source schil rond de Heritrix software. Voor de beschikbaarstelling gaat de KB de Wayback Machine van InternetArchive gebruiken. Dat gaat allemaal goed zolang het html-pagina’s betreft. De harvestingsoftware kan (nog) niet omgaan met plug-ins en Javascript, en bijvoorbeeld de mouse-overs die ik in deze blog gebruik.
De duurzaamheid is ook nog een onopgelost probleem voor alle harvesters. Het is onbekend hoe de websites eruit zullen zien in de browsers van de toekomst. En dan zijn er vragen rondom migreren of emuleren. De techneuten zijn er nog lang niet uit hoe dat georganiseerd moet worden. De KB en het NA nemen deel aan internationale projecten om dit nader te onderzoeken (Dioscuri, Keep), maar concrete handvatten zijn nog niet ontwikkeld. Daarvoor is nog veel meer research nodig. En meer overleg tussen de NCDD-techneuten onderling (daar wordt aan gewerkt).
Overigens is die duurzaamheid ook internationaal nog een probleem. Het InternetArchive, bijvoorbeeld, heeft een onzekere financieringsstructuur en ook de backupstrategie is niet ideaal (zie o.a. mijn verslag van de PrestoCentre-conferentie en Brewster Kahles bijdrage daar).

web12

 

Hoe gaan we webarchiveren/webverzamelen verder organiseren?


Het is niet gemakkelijk om echte conclusies te trekken uit zo’n eerste verkenning van het landschap in Nederland. De bijeenkomst leverde vooral het nodige inzicht op in de huidige situatie: de verschillende vormen van webarchivering, de verantwoordelijkheid van de zorgdragers, het feit dat helaas niemand nog het Ei van Columbus heeft ontdekt en dat webarchivering vooralsnog een zeer experimentele activiteit is.
Er kwamen wel een aantal duidelijke wensen op tafel richting NCDD en de NCDD-partners:
  • Maak en publiceer een overzicht van wat waar verzameld/gearchiveerd wordt en waar het beschikbaar is
  • Werk aan de urgentie bij bestuurders en het Ministerie
  • Breng meer kennis naar buiten; help kleine instellingen met adviezen en handvatten
  • Kleinere instellingen accepteren hun verantwoordelijkheid, maar denken dat research & development vooral van de grote spelers moet komen en dat instellingen als de KB ook diensten zouden moeten kunnen bieden aan derden, al dan niet tegen betaling.
web13Wat die laatste twee betreft kwam ik even uit mijn rol als blogger om aan te tekenen dat ze een altijddurend streven zijn van de NCDD, maar dat het in de praktijk lastig blijkt om vraag en aanbod qua kennis goed te koppelen. De bezuinigingen slaan ook toe bij de NCDD-partners, en dat betekent dat er minder personeel beschikbaar is om de eigen organisatie draaiend te houden en research te doen. Voor het ontwikkelen van kennis/diensten voor derden is er momenteel domweg niet genoeg capaciteit … Wat allemaal niet wegneemt dat de NCDD er naar blijft streven om een landelijke infrastructuur voor duurzame toegankelijkheid te bouwen, en vooral aan de achterkant, in de back office, samen te werken om het allemaal wat minder duur te maken. Alleen vanwege de bezuinigingen in een trager tempo dan we vorig jaar hoopten.

 

Ten slotte


Met dank aan Ingmar Koch en Petra Links: Het is waar dat we nog lang niet alles hebben opgelost, maar als je niets doet ben je er zeker van dat je alles verliest. Ook met beperkte middelen kunnen we al heel wat verlies aan informatie voorkomen, dat hebben we vanmiddag gezien.

Zie ook het verslag van Ingmar Koch op zijn blog.

donderdag 14 april 2011

Help! Born-digital!

Foto http://ccfi.educ.ubc.ca/publication/insights/call/borndigital.html
Of ik nu praat met archivarissen of met bibliothecarissen, met musea of met wetenschappelijke archieven, overal geldt 'born-digital' als een groot gevaar dat in dreigende taal wordt uitgelegd: er is zo ongelooflijk veel van, en het is zo ongrijpbaar, en het verandert continu - hoe krijgen we daar ooit grip op?
Van dat soort taal zakt de moed je meteen al in de schoenen, en daarom zei Paul Miller van The Cloud of Data laatst (tijdens de PrestoCentre conferentie), dat we daar onszelf geen dienst mee bewijzen. 'Use the language of opportunity', gaf hij mee als advies. Dat klinkt mooi, maar hebben we er ook wat aan?

Afgelopen maandag kreeg ik nog de vraag of de NCDD zou kunnen adviseren wat er wel en niet bewaard zou moeten worden en wie dan wat moet doen. Het antwoord is kort: nee, zulke adviezen heeft de NCDD niet en die gaat de NCDD ook niet geven. De NCDD wil ervoor zorgen dat er faciliteiten komen om digitale objecten duurzaam toegankelijk te houden, en de NCDD wil makelaar zijn voor goede afspraken, zodat we dubbel werk voorkomen, maar de verantwoordelijkheid voor wat er verzameld wordt, die ligt toch echt bij de collectiehouders, bij de mensen die verstand hebben van de inhoud.

En dat is het mooie - dat we niet afglijden in een wereld waarin alles door techniek en massa wordt bepaald, maar dat er plekken overblijven waar  mensen met kennis van zaken en liefde voor het vak de keuzes maken.

Ik zie in het digitale tijdperk twee bewegingen naast elkaar ontstaan: enerzijds de grootgrutters die de ambitie hebben om 'alles' te verzamelen, maar dat vaak nogal oppervlakkig doen - want kwantiteit en kwaliteit gaan zelden samen. Ik noem Google, maar ook het InternetArchive. Prima bronnen, waar we blij mee kunnen zijn, want je vindt er veel en snel, maar het is allemaal wat oppervlakkig.

Daarnaast blijven er specialisten die in de diepte verzamelen en ontsluiten, voor de fijnproevers. Momenteel twijfelen die specialisten vooral. Archivarissen vragen om meer regels (zie de Archievisiesessies van vorig jaar), een conservator vraagt de NCDD om advies. Die twijfel is wel begrijpelijk, want veel archivarissen en conservatoren die momenteel besluiten moeten nemen voor de toekomst zijn niet 'born-digital', ze zijn analoog geschoold. Maar dat is uiteraard een tijdelijk probleem.

Het is de essentie van het werk van erfgoedinstellingen dat ze een stuk verantwoordelijkheid voor de toekomst nemen, dat ze zich gedragen als de vertegenwoordiger van een toekomstige gebruiker en vanuit dat perspectief verzamelen. En dat kan alleen maar met een menselijke maat. Verre van volledig, verre van perfect, maar met de eerlijke intentie om de toekomst te dienen. En dat kun je in dat overdonderende born-digital tijdperk alleen maar doen op basis van de wereld die je kent: je eigen instelling, je eigen missie, je eigen gebruikers. Mooi toch?