Duurzame toegang (long-term access): Webarchivering in Nederland: de status anno 2011

dinsdag 19 april 2011

Webarchivering in Nederland: de status anno 2011

Hoe staat het ervoor met webarchivering in Nederland? ; en: Wat moeten we doen om webarchivering in Nederland beter te organiseren? – dat waren de centrale vragen die gisteren, 18 april 2011, op de rechthoekige tafel lagen van de NCDD rondetafelbijeenkomst webarchivering.
Het zal de lezer niet verbazen dat wij, ondanks de hoge opkomst en de enthousiaste discussies, vraag twee in één middag niet hebben kunnen beantwoorden. Maar de beantwoording van vraag één is voor mij een stuk dichterbij gekomen.
Omdat de NCDD een sectoroverkoepelende organisatie is, waren er deelnemers uit overheidsorganisaties (‘zorgdragers’ in Archiefwettermen), uit archieven, bibliotheken, de wetenschap, een museum, en enkele commerciële aanbieders van webarchiveringsdiensten. Omdat bovendien de insteek van de deelnemers kon variëren van conceptueel/cultuurhistorisch tot héél praktisch, had ik tijdens mijn inleiding al spraakverwarringen aangekondigd, waarna ik de voorzittershamer direct overdroeg aan René Voorburg van de KB. Ik moest immers kunnen bloggen …. ;-)

Websites archiveren is iets anders dan websites verzamelen (collectievorming)

In de loop van de middag kwamen we erachter dat er verschillende vormen van webarchiveren zijn, en dat die in aanpak nogal van elkaar verschillen. Daarom krijgen ze hier allebei een eigen benaming:

websites archiveren door overheidsdiensten (zorgdragers) is het pure archiveren conform de Archiefwet om verantwoording af te kunnen leggen over het handelen van de overheid. Het gaat hier om organisaties die hun eigen website archiveren, en dat in principe (zouden moeten) doen elke keer als de site verandert. Je moet immers kunnen aantonen wat er op 19 april 2011 aan informatie voor de burger op de site stond.
websites verzamelen (collectievorming) is meer een activiteit van erfgoedinstellingen zoals de Koninklijke Bibliotheek. Het doel is niet verantwoording afleggen maar om toekomstige onderzoekers te dienen met informatie over ons huidige tijdsgewricht. Het gaat hier om instellingen die (vele) websites van anderen harvesten en dat in principe één of twee keer per jaar doen.

Ik ga op allebei wat dieper in:

Websites archiveren: ‘Websites zijn archieven in de zin van de Archiefwet’

Voor wie er nog aan mocht twijfelen: er waren drie archiefinspecteurs (Esther Balkestein, Jacko de Groot en Ingmar Koch) in de zaal en een zelfstandig overheidsadviseur (Erika Hokke) en die waren het over één ding roerend eens: websites zijn archieven in de zin van de Archiefwet. En dus, zo benadrukte Maurice van den Dobbelsteen van het Nationaal Archief, hebben overheidsinstellingen (‘zorgdragers’) zelf de plicht om die te archiveren. Dat gaat het Nationaal Archief niet voor ze doen. Het NA ontfermt zich pas over websites nadat ze zijn overgedragen. Momenteel staat daar twintig jaar op, en Maurice gaf direct toe dat die overdrachtstermijn in de digitale 21ste eeuw niet meer kan. Daarom komt er nu een beweging op gang waarbij het Nationaal Archief, maar ook lokale archieven, zullen proberen invloed uit te oefenen op de productiefase van digitale documenten zoals websites, om ervoor te helpen zorgen dat ze duurzaam worden bewaard. Aan de verantwoordelijkheid van de zorgdrager doet dat echter niets af.

Maar, zo verwoordde Bente Steffenssen van de Gemeente Bergen op Zoom het dilemma van veel collega’s: ‘Ik heb een vage opdracht om webarchivering op te starten, maar ik kan nergens concrete handvatten vinden en heb dus de neiging om het voorlopig maar in de ijskast te zetten. Begrijpen jullie dat?’ Waarop Ingmar Koch (archiefinspecteur) en Maurice van den Dobbelsteen (NA) eenstemmig antwoordden: ‘Officieel mogen we dat niet begrijpen.’

Maar simpel is het niet. Jaap-Jan Bakker van het Gewest Gooi- en Vechtstreek organiseerde onlangs een marktconsultatie. Daaruit kwam als conclusie dat geen enkele commerciële aanbieder een oplossing heeft die past in de huidige manier van werken. Websites kunnen natuurlijk wel worden gearchiveerd, maar als losse objecten, niet als onderdeel van het proces dat voor verantwoording zo belangrijk is. ‘Maar’, benadrukt Ingmar Koch, ‘dan doe je tenminste iets, en alles is beter dan niets.’ In dat licht keek hij ook naar de methode die het UWV momenteel hanteert: na iedere wijziging wordt de webpagina in een Word-document gevat en gearchiveerd. Niet ideaal, maar in het kader van roeien-met-de-riemen-die-je-hebt tenminste een vastlegging.

Toch moet de conclusie zijn dat er bestuurlijk nog steeds weinig aandacht is voor webarchivering, en dat er ook veel te weinig middelen en menskracht voor wordt ingezet. Marcel Prive van GWCrossmedia (o.a. Archiefweb) gaf aan dat er veel kan, maar dat organisaties vaak schrikken van de kosten. Men is gewend geld uit te geven voor fysiek beheer, maar niet voor digitaal beheer. Grote organisaties als NA, KB en NCDD doen hun best om de urgentie aan te tonen, maar dat blijft lastig.
Wat kunnen zorgdragers zelf doen? Een praktisch handvat: ervoor zorgen dat de ontwerpers van hun websites de Webrichtlijnen van de overheid kennen en toepassen. Dat voorkomt veel technische problemen achteraf. Ook het goed archiveren van het bronmateriaal voor de website is een alternatief dat kan werken.

Websites verzamelen: problemen met auteursrecht en kwaliteitscontrole

Organisaties die websites verzamelen vanuit een cultuurhistorisch perspectief, hebben weer andere problemen, om te beginnen het auteursrecht. Een kopie maken en die weer opnieuw ter beschikking stellen (wat deze organisaties willen) mag volgens het auteursrecht niet zonder toestemming. Er is een uitzondering voor on-site inzage, maar alle drie de aanwezige verzamelaars (KB, Nederlands Documentatie Centrum Politieke Partijen/Archipol en het Gemeentearchief Rotterdam met zijn cultuurhistorische Rotterdamcollectie) willen uiteindelijk hun verzamelingen online tonen. Zo ver is het trouwens nog niet. KB, Archipol en GAR zijn momenteel nog besloten verzamelingen. De KB gaat later dit jaar voorzichtig van start met on-site openstelling. Om zich auteursrechtelijk in te dekken, hanteert de KB een opt-out regeling: beheerders van websites krijgen een melding dat de KB ze wil harvesten. Als men dat niet wil, kan men dat aangeven. Archipol heeft overeenkomsten met de politieke partijen die geharvest worden, maar zo nodig wil men er wel toe overgaan om een naam te verwijderen uit privacy-overwegingen.

Ten behoeve van de KB-harvester voor één keer zonder mouse-over: vlnr René Voorburg (KB, gespreksleider), Marcel Prive (GWCrossmedia), Peter de Bode (KB), Peter Tervooren en Marleen Pijpelink (Atos/Archipol), en vele anderen

Zouden de instellingen erbij gebaat zijn om met zijn allen wat minder krampachtig met het auteursrecht om te gaan en zich uit cultuurhistorisch belang dezelfde rechten toeëigenen als bijvoorbeeld Google en het InternetArchive? Henk Druiven (Archipol): ‘Er is nog nooit iemand om deze reden in de gevangenis beland …’ Wellicht iets om in NCDD-verband over na te denken.
De KB harvest momenteel 3.000 websites, ca. twee maal per jaar. Op termijn moeten dat er jaarlijks 10.000 worden. Het selectiecriterium van de KB is het belang voor de Nederlandse samenleving en geschiedenis. Dat is, zoals bij alle cultuurhistorische verzamelingen, een subjectieve keuze van de verantwoordelijke medewerkers (w.o. Peter de Bode, foto boven). De KB probeert geen websites te verzamelen die elders worden opgenomen (Rotterdam, Archipol). Andere landen, zoals Frankrijk en Zweden, doen hele domeinharvests. De KB acht dat organisatorisch en financieel voor Nederland niet haalbaar, ook al omdat het .nl-domein naar schatting 4 miljoen ~~urls~~ domeinnamen heeft [met dank aan Bob Coret voor de correctie].

De na'zit': vlnr René Voorburg, Trudie Stoutjesdijk (KB), Vincent Robijn (GAR) - en met NCDD-boekje

Het harvesten van duizenden websites van onbekende makelij levert technisch veel problemen op. Daarom worden alle harvests handmatig gecontroleerd. Als bijvoorbeeld de plaatjes niet zijn meegekomen van een kunstenaarswebsite, wordt de harvest afgekeurd. In internationaal verband werken de o.a. de KB en het NA aan manieren om dit werk (deels) te automatiseren.

Andere meer op cultuurhistorie gerichte instellingen die aanwezig waren oriënteren zich nog. Beeld en Geluid onderzoekt momenteel diverse scenario’s voor websites verzamelen, in eerste instantie de websites van de omroepen, maar ook audiovisueel materiaal in breder verband, en social media. Dat is heel dynamische content, die men diep zou willen verzamelen, en er zijn nog geen kant-en-klare oplossingen voor het harvesten en weer beschikbaar stellen. Ook auteursrechtelijke aspecten moeten nog bekeken worden.

Het Friese Tresoar werkt samen met de KB bij het selecteren van Friese websites. Het NIOD beheert een aantal websites en laat er enkele door de KB harvesten. Technisch bleek het niet mogelijk ze allemaal bij de KB onder te brengen.

Duurzaamheid nog een groot technisch probleem

De KB, Archipol, diverse zorgdragers, het GemeenteArchief Rotterdam en diverse commerciële aanbieders zijn nu in staat om de meeste websites binnen te halen. De KB gebruikt voor het harvesten de Web Curator Tool, een open-source schil rond de Heritrix software. Voor de beschikbaarstelling gaat de KB de Wayback Machine van InternetArchive gebruiken. Dat gaat allemaal goed zolang het html-pagina’s betreft. De harvestingsoftware kan (nog) niet omgaan met plug-ins en Javascript, en bijvoorbeeld de mouse-overs die ik in deze blog gebruik.
De duurzaamheid is ook nog een onopgelost probleem voor alle harvesters. Het is onbekend hoe de websites eruit zullen zien in de browsers van de toekomst. En dan zijn er vragen rondom migreren of emuleren. De techneuten zijn er nog lang niet uit hoe dat georganiseerd moet worden. De KB en het NA nemen deel aan internationale projecten om dit nader te onderzoeken (Dioscuri, Keep), maar concrete handvatten zijn nog niet ontwikkeld. Daarvoor is nog veel meer research nodig. En meer overleg tussen de NCDD-techneuten onderling (daar wordt aan gewerkt).
Overigens is die duurzaamheid ook internationaal nog een probleem. Het InternetArchive, bijvoorbeeld, heeft een onzekere financieringsstructuur en ook de backupstrategie is niet ideaal (zie o.a. mijn verslag van de PrestoCentre-conferentie en Brewster Kahles bijdrage daar).

Hoe gaan we webarchiveren/webverzamelen verder organiseren?

Het is niet gemakkelijk om echte conclusies te trekken uit zo’n eerste verkenning van het landschap in Nederland. De bijeenkomst leverde vooral het nodige inzicht op in de huidige situatie: de verschillende vormen van webarchivering, de verantwoordelijkheid van de zorgdragers, het feit dat helaas niemand nog het Ei van Columbus heeft ontdekt en dat webarchivering vooralsnog een zeer experimentele activiteit is.
Er kwamen wel een aantal duidelijke wensen op tafel richting NCDD en de NCDD-partners:

Maak en publiceer een overzicht van wat waar verzameld/gearchiveerd wordt en waar het beschikbaar is
Werk aan de urgentie bij bestuurders en het Ministerie
Breng meer kennis naar buiten; help kleine instellingen met adviezen en handvatten
Kleinere instellingen accepteren hun verantwoordelijkheid, maar denken dat research & development vooral van de grote spelers moet komen en dat instellingen als de KB ook diensten zouden moeten kunnen bieden aan derden, al dan niet tegen betaling.

Wat die laatste twee betreft kwam ik even uit mijn rol als blogger om aan te tekenen dat ze een altijddurend streven zijn van de NCDD, maar dat het in de praktijk lastig blijkt om vraag en aanbod qua kennis goed te koppelen. De bezuinigingen slaan ook toe bij de NCDD-partners, en dat betekent dat er minder personeel beschikbaar is om de eigen organisatie draaiend te houden en research te doen. Voor het ontwikkelen van kennis/diensten voor derden is er momenteel domweg niet genoeg capaciteit … Wat allemaal niet wegneemt dat de NCDD er naar blijft streven om een landelijke infrastructuur voor duurzame toegankelijkheid te bouwen, en vooral aan de achterkant, in de back office, samen te werken om het allemaal wat minder duur te maken. Alleen vanwege de bezuinigingen in een trager tempo dan we vorig jaar hoopten.

Ten slotte

Met dank aan Ingmar Koch en Petra Links: Het is waar dat we nog lang niet alles hebben opgelost, maar als je niets doet ben je er zeker van dat je alles verliest. Ook met beperkte middelen kunnen we al heel wat verlies aan informatie voorkomen, dat hebben we vanmiddag gezien.

Zie ook het verslag van Ingmar Koch op zijn blog.

5 opmerkingen:

Bob Coret zei: Bedankt voor verslag!

Kleine opmerking: ".nl-domein naar schatting 4 miljoen urls heeft" moet denk ik zijn "4 miljoen domeinnamen" (zie ook SIDN artikel); 20 april 2011 om 00:03
Inge Angevaare zei: @Bob Coret. Dank voor de bijsturing! Ik ga het meteen corrigeren.; 20 april 2011 om 12:31
Inge Angevaare zei: Aanvulling van René Voorburg:
- Er is een google group specifiek over webarchivering, zie http://groups.google.com/group/webarchief-nl.
- 9 mei, op de KB, IIPC bijeenkomst over webarchivering "Out of the box", zie http://www.netpreserve.org/events/2011GAoutofthebox.php; 20 april 2011 om 13:13
Ingmario zei: Het was een interessante bijeenkomst Inge, ik hoop alleen maar dat er de komende vijf jaar ook echt iets gebeurt en dat Erika niet in 2016 moet constateren dat er eigenlijk sinds 2006 nauwelijks iets veranderd is.; 20 april 2011 om 13:22
rv zei: Ingmar:
Je bent mi. wat te negatief. Sinds 2006 is er op het gebied van *collectioneren* erg veel gebeurt. Bij de KB is veel ervaring opgedaan en toch ook een behoorlijke collectie opgebouwd.
Afgelopen jaren zijn er bovendien verschillende zorgdragers begonnen met archivering van sites. Bijv. verschillende gemeentes (mn. met behulp van commerciele partijen?) maar ook de Tweede Kamer (of valt wat zij doen niet direct onder de 'archivering', ik weet het niet zeker).

Bob: Terechte opmerking. Op de KB wordt vaak gezegd dat er 4 miljoen Nederlandse sites zijn. Dat berust denk ik op de verwarring waar jij hier op wijst. Een interessante vraag is dan hoewel Nederlandse websites er dan wel zijn. Ik zie geen eenvoudige manier om daar achter te komen. Als een Nederlandse site een eigen domeinnaam heeft en gericht is op Nederland dan zijn het er denk ik hooguit 500.000. Dat is vooral gut-feeling. Ik ken in mijn ruime omgeving maar heel weinig mensen die privé of als eigenaar bedrijf een site hebben (wel veel blogs e.d. maar die vallen niet onder de definitie). Wat ik ook weet is dat bedrijven heel erg veel ongebruikte domeinnamen hebben.

Heel benieuwd hoe anderen dit inschatten....

Dank en groet,
René; 21 april 2011 om 10:50

Een reactie posten