Inge Angevaare's blog over duurzame toegang tot digitale informatie in Nederland en daarbuiten
Blog of the coordinator of the Dutch Digital Preservation Coalition NCDD
vrijdag 12 december 2008
Duurzaamheid: (ook) een kwestie van organiseren
Afgelopen woensdag organiseerde de NCDD een workshop op de jaarlijkse conferentie van Digitaal Erfgoed Nederland (DEN). Voor een publiek van zo'n veertig erfgoedinstellingen (vooral musea en bibliotheken, bleek later, een paar archieven en enkele 'overige' instellingen) mocht ik de workshop openen met de belangrijke constatering dat we voor duurzame toegang natuurlijk techniek nodig hebben, maar dat we er met techniek alleen niet komen (zie powerpoint). Digitale informatie is mobiel, het overschrijdt grenzen tussen instellingen en tussen sectoren, wat je vandaag opslaat wordt wellicht over 50 jaar opgevraagd door een gebruiker met een totaal ander soort computer. Omdat digitale informatie zorg vereist van wieg tot graf, betekent dit dat al die betrokkenen actief moeten samenwerken om de informatie zodanig te managen dat zij toegankelijk, bruikbaar, begrijpelijk en authentiek blijft. Het is een soort keten, en als er één zwakke schakel tussen zit . . .
En er is meer. Zoals de volgende spreker, Tom Wever van de ING-bank beaamde: het managen van digitale data is een vak apart dat veel specialistische kennis vereist. Als erfgoedinstelling moet je je afvragen of je dat allemaal wel zelf moet willen doen. Het was bijzonder dat Tom er zijn vrije dag én drie uur fileleed voor over had om ons erfgoedinstellingen een kijkje te geven in de keuken van een grote bank; en ik zal niet de enige zijn geweest die bij het luisteren naar Tom naast al dat mooie erfgoed ook de veiligheid van mijn eigen spaarrekening daarbij in gedachten had :-).
Het voorbeeld van de ING-bank
Wat een grote bank wel en niet mag doen met digitale informatie wordt gelukkig streng bewaakt door De Nederlandsche Bank. Alle transactiegegevens moeten bijvoorbeeld na een jaar worden vernietigd. De Afdeling Marketing mag wel onderzoek doen naar financiële profielen van klanten, maar alleen anoniem. Informatie die wel moet worden bewaard (verzekeringen, pensioenen) wordt uiteraard goed beheerd op uitstekende schijven die her en der back-ups en spiegels hebben. De ING migreert de data wanneer nodig, en Tom gaf aan dat dat tot nu toe niet zo'n groot probleem is geweest, omdat er in de jaren 60 nog maar weinig digitaal werd bewaard. Hij ziet het probleem wel groeien in de toekomst, als de hoeveelheden enorm zullen toenemen. Schijfruimte is daarbij niet het probleem, die wordt steeds goedkoper. De echte kosten gaan zitten in het beheer van die data: wie weet wat er op de schijven staat, wanneer moet het weer worden omgezet en naar welk formaat? En je moet natuurlijk de risico's in de gaten houden en beperken. Tom gaf aan dat wat hem betreft de risico's niet zozeer in de pure techniek zitten - die is tegenwoordig robuust genoeg. De welbekende hackers vormen eigenlijk ook maar een klein probleem. Wat blijkt? De grootste risico's zitten toch in menselijke fouten. Een nulletje meer of minder is gauw getikt en ook de IT-medewerkers die de back-ups verzorgen zijn maar mensen die een keer de fout in kunnen gaan. Het beperken van die risico's vraagt om ijzeren discipline in de organisatie en vele controleslagen - organisatie, dus.
Daarbij - en dat vond ik wel opmerkelijk - kijkt de bank niet verder dan een termijn van een jaar of vijf. Onder het motto "we will cross that bridge when we get there" doet de bank nu alles wat in haar macht ligt om duurzaamheid te bevorderen, ervan uitgaande dat ze dat steeds zal blijven doen. Pragmatisch stap-voor-stap-denken, dus, met weliswaar een langetermijnperspectief, maar geen 'langetermijnblokkade' ("we weten nog niet hoe we het voor 100 jaar goed moeten doen, dus we doen maar even niets").
Tom had een aantal duidelijke adviezen voor erfgoedinstellingen:
- "Wordt geen IT-center" - kijk als organisatie naar wat je uniek maakt, en steek daar al je energie in. Andere zaken, vooral specialistisch werk dat je niet dagelijks doet, kun je beter uitbesteden. Dat doet ING ook.
- Probeer coöperaties te vormen met even grote instellingen als je diensten gaat uitbesteden. Zo krijg je een betere onderhandelingspositie.
- Koop geen computersystemen maar huur ze. Computersystemen verouderen razendsnel, en als je ze zelf moet vervangen, stel je die beslissing vaak te lang uit.
- Je hoeft zelf geen IT expert te zijn, maar je moet als inkoper wel de expertise hebben om de prestaties van je service providers te beoordelen.
Yola de Lusenet, die bekwaam het voorzitterschap voor haar rekening nam, merkte na Toms presentatie op dat deze adviezen eigenlijk helemaal tegen het gevoel van erfgoedinstellingen indruisen: van oudsher zijn we gewend dat we objecten juist in veiligheid brengen door ze binnen onze muren te halen; nu zouden ze veiliger zijn door ze weg te brengen?? Dat is echt even wennen . . .
De lessen van zes jaar KB e-Depot
Zelf doen of uitbesteden? Hilde van Wijngaarden van de KB, die samen met IBM een eigen e-Depot ontwikkelde, vertelde dat ook de KB nu besloten heeft om te gaan uitbesteden, precies om de redenen die Tom Wever noemde. Wat overigens niet wegneemt, zo benadrukte Hilde, dat de KB zelf veel expertise in huis zal moeten hebben en houden om externe providers aan te sturen en te controleren. Hilde toonde zich ook direct bereid die kennis te delen met andere partners - bijvoorbeeld in het kader van de NCDD.
Daarmee haakte ze in op een deel van mijn presentatie: samenwerking is geboden als we de uitdaging van digitale duurzaamheid willen aangaan, met name op het gebied van expertise en financiering. Geen enkele instelling kan dit alleen oplossen. Daarom is de NCDD opgericht, met als doel een solide landelijk netwerk van beleid, organisatie en faciliteiten waarin de digitale informatie van de publieke sector veilig kan worden bewaard.
Hilde vertelde dat de KB in het kader van dit landelijke netwerk in ieder geval de zorg op zich neemt voor alle digitale publicaties die in Nederland verschijnen; die kunnen via het webloket van het e-Depot gedeponeerd worden. Ook de publicaties uit de universitaire repositories worden door de KB geharvest, en binnenkort gaat het Nederlandse webarchief van start.
Maar ook de KB moet de tering naar de nering zetten. Enkele jaren geleden kondigde de KB aan dat zij een nationaal TIFF-archief zou ontwikkelen voor digitale masters. Dat plan bleek vooralsnog te ambitieus. Het bestaande DIAS-systeem kon een dergelijk grote toevloed van data niet aan. Daarom is besloten om de hele infrastructuur te gaan vernieuwen voordat eventuele nieuwe projecten worden opgestart. Dit programma "Vernieuwing e-Depot" zal enkele jaren in beslag nemen. Gedurende de looptijd zal de KB de lopende stroom publicaties gewoon archiveren, maar kan zij geen nieuwe verplichtingen op zich nemen.
De dagelijkse realiteit van het Fries Museum
Met de duo-presentatie van Wilbert Helmus en Trineke Kamerling van de Friese musea werd het publiek weer even teruggebracht naar de dagelijkse realiteit van veel erfgoedinstellingen. Toen Wilbert bij het Fries Museum aantrad was er wel sprake van automatisering en digitalisering, maar er was geen ICT-beleid en geen applicatiebeheer. Die situatie bracht grote risico's met zich mee. Inmiddels is een begin gemaakt met duurzaamheidsbeleid: er is een Informatieplan en het museum heeft een data-conservator benoemd (Trineke Kramer). Ook is samenwerking gezocht met andere Friese instellingen om een back-upstrategie te ontwikkelen. En er zijn nieuwe contracten gesloten met service providers. Het Fries Museum evolueert van beheersing naar strategisch beleid, van incident gedreven acties naar vooraf sturen. Wilbert benadrukte ten slotte dat duurzaamheid eigen verantwoordelijkheid is en dat kleine(re) instellingen moeten samenwerken.
Nationale Verkenning Digitale Duurzaamheid
Waarmee we (niet geheel toevallig) terug zijn bij de NCDD. Een team onderzoekers trekt de komende zes maanden het land in om te onderzoeken hoe dat landelijk dekkende netwerk, die samenwerking, gestalte kan krijgen. Wat voor digitale data worden er in Nederland bewaard, door wie en hoe? Waar dreigt digitale data verloren te gaan? En: wat is ervoor nodig om de data uit de publieke sector verantwoord te managen? Al die vragen komen tijdens de Nationale Verkenning aan bod.
Aan het eind van de workshop namen we een voorschot op de Verkenning, en vroegen de aanwezigen wat zij nodig dachten te hebben. Hier zijn de resultaten:
(dubbelklik op de afbeelding voor een betere weergave)
Met stip op één staan: richtlijnen - wat moeten we nu concreet doen? Waar beginnen we?
- Een nationaal servicecentrum haalt de tweede plaats. Ligt hier een taak weggelegd voor de bestaande instellingen? Ik denk dan bijvoorbeeld aan de businessmodellen voor dienstverlening aan het land waarmee het Nationaal Archief volgend jaar gaat experimenteren (zie blog 17 oktober, vlak onder de tweede foto). Of moet er iets heel nieuws ontstaan?
- Over het nut van een centraal depot verschillen de meningen. De musea zien er wel wat in, maar de archieven niet.
- Dat een optie met "dwang" erin laag zou scoren in Nederland, had ik wel verwacht, maar dat hij gelijk zou eindigen met de "onvermoeibare lobby voor meer geld" vond ik eerst opmerkelijk - totdat ik me realiseerde dat de instellingen die in de zaal zaten aan het begin van de workshop op drie na hadden aangegeven dat ze de duurzaamheid van hun digitale data nog niet onder controle hebben. Misschien weten ze gewoon nog niet wat het kost? Is het een idee om Hilde van Wijngaarden voor een volgende workshop te vragen of de KB hier inmiddels meer zicht op heeft?
Uiteraard was dit maar een mini-enquete en mogen we er nog geen waarde aan hechten. Ik ben benieuwd of de resultaten van de Nationale Verkenning anders zullen uitpakken. Het project loopt van januari tot juli, met een nationale conferentie in september. Het projectteam kan niet heel Nederland bezoeken. Daarom worden op basis van netwerkkennis selecties gemaakt van zo representatief mogelijke instellingen (groot, klein, wel actief, niet actief, etc.).
Mocht jij een briljant idee hebben voor de opzet van een nationale infrastructuur, maar mocht het projectteam jou niet kunnen vinden om je te interviewen, meld je dan bij inge.angevaare@kb.nl.
woensdag 3 december 2008
Duurzaamheid op de DEN-conferentie
A.s. dinsdag en woensdag wordt de jaarlijkse DEN-conferentie gehouden in de Doelen in Rotterdam. De NCDD presenteert daar op 10 december om 10.30 uur een workshop die niet over techniek gaat, maar over beleid en organisatie. Het rijtje sprekers geeft aan hoe divers duurzame toegankelijkheid kan zijn: Tom Wever vertelt hoe duurzaam klantgegevens bij de ING-bank worden bewaard; Hilde van Wijngaarden maakt duidelijk wat de Koninklijke Bibliotheek nu wel en niet opneemt in haar e-Depot, en Wilbert Helmus doet verslag van de organisatie van duurzaamheid bij het Fries Museum. Aan mij de eer om aan te geven wat landelijke samenwerking voor digitale duurzaamheid kan betekenen en aan te kondigen dat de Nationale Verkenning Digitale Duurzaamheid binnenkort het land in gaat om de meningen te peilen over hoe digitaal duurzaam (publiek) Nederland er uit moet gaan zien. Komt allen, zou ik zeggen :-).
zondag 16 november 2008
Duurzame toegang in de wetenschap financieren
Op 4 november werd in Boedapest de jaarlijkse conferentie van de Alliance for Permanent Access gehouden onder de titel: 'Keeping the Records of Science Accessible - Can we Afford it? Business models for permanent access'. Voor de Alliance website heb ik een uitgebreid conference report geschreven dat ik hier niet zal herhalen. Het beeld is duidelijk: het zijn vooral de wetenschappers zelf (en niet de bibliotheken) die hun data organiseren en dat doen zij per discipline verschillend, maar vooral over nationale grenzen heen. Dat maakt financiering lastig: universiteiten, onderzoeksfinanciers, nationale overheden en de EU zijn allemaal partijen die daarbij betrokken zijn. Er zijn belangenbehartigers op Europees niveau nodig om al die lijntjes bij elkaar te brengen, en daar is de Alliance nu juist voor opgezet.
Maar kunnen we het ons veroorloven? We horen immers vaak dat digitale duurzaamheid zo duur is. De Engelse Archaeological Data Service (ADS) heeft een prijskaartje gehangen aan duurzame opslag: 0,30 GBP per megabyte voor opslag 'in de eeuwigheid'. Maar dat is alleen de opslag (inclusief migraties). Wat acquisitie en ingest kosten aan de ene kant, en toegang aan de andere, hangt van zoveel factoren af dat het niet in zijn algemeenheid te schatten is. Het Max-Planck-Institute for Psycholinguistics becijferde dat een complex levend archief, met depots op verschillende plaatsen, toch minstens 400.000 euro per jaar kost.
Is dat duur? Graham Cameron van het European Bioinformatics Institute (EBI) stelde : 'Permanent access is the cheap way to doing science': een paar uur achter de computer kan jarenlang laboratoriumwerk vervangen. De vraag is natuurlijk wel hoe je die opbrengst concreet kunt maken tegenover financiers - wat is de prijs van een versnelde ontdekking van een bepaald medicijn?
Ian Halliday van de European Science Foundation, die de conferentie voorzat, had een pragmatische kijk op de financiering van permanente toegang: uiteindelijk zal het erop uit draaien dat de wetenschap een bepaald budget krijgt en het daarmee moet doen. Dan wordt het een kwestie van selecteren wat we wel en niet willen bewaren.
dinsdag 28 oktober 2008
Wiki digitale duurzaamheid
De collega's van ED3 meldden het al uitgebreid, er is een wiki gestart rondom digitale duurzaamheid. Nu ben ik blij met ieder initiatief op dit gebied, maar voordat ik hem in de bronnenlijst van de NCDD opneem, moet het initiatief meer body krijgen en wil ik meer weten van de richting waar dit uit gaat, vooralsnog vooral ICT-toepassingen en dan vooral open source. Ik ben benieuwd.
vrijdag 17 oktober 2008
Digitale archieven worden flexibel en onderdeel primair proces
Afgelopen woensdag organiseerden de gemeente/stadsarchieven van Rotterdam en Antwerpen een gezamenlijke studiedag in het sfeervolle Felixarchief in Antwerpen. Voor een bomvolle zaal van collega's (de helft uit Nederland en de helft uit Vlaanderen) lieten het Nationaal Archief, het GAR Rotterdam en het Felixarchief zien hoe ver ze zijn met de ontwikkeling van hun digitale depots en welke visies ten grondslag liggen aan hun initiatieven. (De presentaties staan op de studiedagwebsite van het GAR; fotobijschriften onderaan de blog.)
Wat het eerste betreft: Het Nationaal Archief en het GAR hopen begin volgend jaar de testfase in te gaan met hun digitale depots, die met dezelfde Tessella software worden ingericht. 2009 wordt het jaar van vele testen en pilotprojecten, waarna de systemen in 2010/2011 volledig operationeel moeten zijn. Het Felixarchief is al experimenteel in bedrijf. Men kiest er in Antwerpen voor om onderdeel voor onderdeel geleidelijk over de volle breedte uit te rollen.
Wat de visies betreft, wil ik er een aantal aspecten uitlichten:
Felixarchief: integreren in de workflow van de ambtenaar
Het Antwerpse archief heeft het geluk gehad dat het kon meeliften op een grote reorganisatie binnen de stedelijke diensten: het project 'denBell', waarbij ambtenaren digitaal gingen werken vanuit wat wij in Nederland flexplekken noemen. Integratie in het primaire proces is hier het motto, integraal 'records management' waar digitale duurzaamheid, pardon! duurzame toegankelijkheid is ingebouwd. Natuurlijk krijgen niet alle gemeentelijke archieven een buitenkans als Antwerpen, maar velen zijn het er inmiddels over eens dat die integratie eigenlijk de enige manier is om duurzame toegang te realiseren bij de administraties.
GAR: "een hele lange workshop"
Jantje Steenbuis en Josje Everse van het GAR legden vooral de nadruk op de betrokkenheid van de gehele organisatie bij de ontwikkeling van het e-depot en "kennis verwerven in de praktijk". Het depot is ontwikkeld in nauwe samenwerking met de Archiefschool en vanaf 2007 met het Nationaal Archief. Steenhuis heeft een e-depot altijd gezien als een kerntaak van een archivaris die je niet mag uitbesteden, maar zij gaf nu aan dat ze ook wel beseft dat niet alle archieven de middelen van een grote stad als Rotterdam hebben, en dat met name kleinere organisaties wellicht pragmatische keuzes moeten maken.
Nationaal Archief: ontwikkelen van diverse scenario's voor diensten aan derden
Het Nationaal Archief speelt in op de behoeften van kleinere organisaties, zo blijkt uit het visiedocument dat het NA twee weken geleden publiceerde (zie ook NCDD nieuwsbericht). In de presentatie van Jacqueline Slats kwamen niet alleen de technische kanten van het Digitaal Depot aan bod, maar ook de business cases waarmee het Nationaal Archief volgend jaar gaat experimenteren. In deze pilots worden (digitale) alternatieven uitgeprobeerd voor het traditionele overbrengen van papieren archieven na een periode van (idealiter) 20 jaar.
Met het Ministerie van Binnenlandse Zaken wordt geëxperimenteerd met vervroegde overbrenging van digitale archieven, ook van archieven die na verloop van tijd vernietigd moeten worden. Met diverse RHC's en andere archieven (Utrecht, Noord-Holland, Zeeland) worden modellen uitgewerkt waarbij het Nationaal Archief fungeert als een trusted digital repository (TDR). Met het Kadaster wordt een experiment gestart waarbij de digitale archieven bij het Kadaster blijven, maar het Nationaal Archief op afstand het technische beheer verzorgt.
Dit zijn stuk voor stuk interessante modellen die een rol kunnen gaan spelen in het ontwikkelen van de nationale infrastructuur voor duurzame toegankelijkheid die op de agenda van de NCDD staat.
Je ziet ook dat digitale depots een sterke ontwikkeling doormaken: waar het in 2003 in gebruik genomen e-Depot van de Koninklijke Bibliotheek nog één geheel was op één plek, wordt nu veel meer gedacht in termen van netwerken. (Om misverstnanden te voorkomen: het KB e-Depot is ook niet stil blijven staan: momenteel loopt een groot vernieuwingsproject om het e-Depot aan te passen aan complexere objecten en de verwerkingscapaciteit te vergroten.)
Overigens waren Inge Schoups en Filip Boudrez het niet echt eens met de stelling dat een digitaal depot niet haalbaar zou zijn voor kleine instellingen. "Gewoon een kwestie van doen", vond Filip Boudrez, en als je eenmaal bezig bent, is het best leuk.
Technology watch uitdaging voor de NCDD
In zijn samenvatting aan het eind van de dag gaf Peter Horsman van de Archiefschool aan dat het digitale tijdperk allerlei kansen biedt om middelen en 'resources' te delen, hoewel we daar traditioneel niet zo goed in zijn. Juist nu hoeven faciliteiten zich niet meer op één plaats te bevinden om gedeeld te kunnen worden. En op het gebied van kennis en expertise valt er heel wat te winnen door samenwerking. Zo hebben noch het Nationaal Archief, noch het Felixarchief, noch het GAR Rotterdam al een stevig fundament gelegd voor de 'technology watch' die hun digitale depots technisch up-to-date moeten houden. In de wandelgangen bleek dat de vraag eerst beantwoord moet worden wat zo'n technology watch nu eigenlijk inhoudt. Hierover later ongetwijfeld meer.
Zie ook: de blog van LOPAI met een verslag van Ingmar Koch.
Foto's IA: rechtsboven, vlnr Jacqueline Slats van het Nationaal Archief, Jantje Steenhuis van het Gemeentearchief Rotterdam, en Inge Sloups van het Felixarchief Antwerpen.
Midden: vlnr Filip Boudrez van het Felixarchief (en van expertisecentrum eDavid) en Josje Everse van het Gemeentearchief Rotterdam).
Onder: De binnenplaats van het Felixarchief.
donderdag 16 oktober 2008
iPRES 2008 (4): online
De iPRES papers zijn gepubliceerd: http://www.bl.uk/ipres2008/programme.html . Meer dan 300 pagina's met de state of the art van duurzame toegankelijkheid in de hele wereld. Er zit veel lezenswaardigs tussen, maar wat dat is zal voor iedereen verschillen. In ieder geval de moeite waard om even de inhoudsopgave te scannen en je eigen favorieten eruit te halen.
dinsdag 7 oktober 2008
iPRES 2008 (3): duurzaamheid is uit
toegang is in
Diverse sprekers (o.a. Lynne Brindley, de CEO van de British Library, Steve Knight van de National Library of New Zealand, Carlos Oliveira van de Europese Commissie en Martha Anderson van de Library of Congress) pleitten tijdens de iPRES 2008 voor een aanpassing van de tot nu toe gebruikelijke vakterminologie: digitale duurzaamheid is op zich slechts een middel in dienst van het einddoel: toegang, gebruik. In onze communicatie zouden we dat meer moeten benadrukken, onderling, maar zeker ook naar de gremia (vaak overheden) die het onderzoek subsidiëren, en niet te vergeten naar het grote publiek. Immers, zo benadrukte Anderson, brede publieke steun is een voorwaarde voor politieke steun en de bereidheid om ergens geld in te stoppen.
In het Engels ligt het alternatief nogal voor de hand: Permanent Access, of, zoals Lynne Brindley suggereerde: 'Preservation for Access'.
In het Nederlands ben ik er nog niet helemaal uit. 'Bewaren om toegang te verlenen' klinkt lang niet zo compact als het Engelse 'preservation for access'. Permanente toegang? Langetermijntoegang?
Juist gekozen woorden zijn belangrijk in communicatie, heel belangrijk. Woorden roepen direct emotie op, en hoe rationeel we ook denken te zijn, we reageren daar onbewust wel op. Daarom nodig ik de lezer gaarne uit om suggesties te doen, via het reactieformulier of rechtstreeks aan inge.angevaare@kb.nl. Wat wordt de Nederlandse variant van 'permanent access'?
NL op de iPRES: Stadsarchief Amsterdam collega's Emmy Ferbeek, Ellen Fleurbaay en Birgit Hoomans.
vrijdag 3 oktober 2008
iPRES 2008 (2):
"Joined up and working"?
(iPRES 2008, blog 2) De organisatoren hadden voor de iPRES 2008 een optimistisch motto gekozen: "Joined up and working". Dat was ook de sfeer waarin Adam Farquhar, Hoofd 'Digital Library Technology' bij de British Library en actief in het Europese PLANETS project, de conferentie opende: er gebeurt van alles, 'research is paying off', er komen eindelijk commerciële archiveringssystemen op de markt en men werkt samen over lands- en disciplinegrenzen heen.
Twee dagen en zo'n 66 (! - sommige in parallelsessies) lezingen later was het Steve Knight van de National Library of New Zealand die de conferentie heel wat nuchterder sloot: ja, er gebeurt van alles, maar "joined up and working" zijn we nog lang niet. Waarom wordt er bijvoorbeeld op twee plekken onafhankelijk van elkaar gewerkt aan registers van digitale bestandsformaten (Global Digital Format Registry GDFR in de VS en PRONOM in Engeland)? Waarom worden gereedschappen als Jhove2 (VS) en DROID (UK), die elkaar in elk geval deels overlappen, los van elkaar ontwikkeld? En wie of wat gaat er voor zorgen dat de resultaten van het EU PLANETS project na afloop van het project worden onderhouden en daadwerkelijk gebruikt kunnen worden?
Ook de sessie over nationale en internationale samenwerkingsverbanden leverde de constatering op dat samenwerking, hoewel hoog op een ieders beleidsagenda, in de praktijk nog erg lastig te realiseren is. De betrokken organisaties en disciplines hebben soms te verschillende belangen om goed samen te kunnen werken en vaak ontbreekt er zoiets fundamenteels als vertrouwen in elkaars oplossingen (met name vaak voelbaar in de discussies tussen bibliotheken enerzijds en archieven anderzijds).
Daar komt bij, zo merkte Martha Anderson van de Amerikaanse Library of Congress terecht op, dat culturele erfgoedinstellingen vaak moeten concurreren om schaarse (overheids-)middelen. Dat vraagt om duidelijke profilering van de eigen instelling, niet om samenwerking (en efficiënte gebruikmaking van overheidsgelden!).
Wat betekent dit voor initiatieven als de NCDD, maar ook voor de Europese koepel Alliance for Permanent Access kun je je afvragen. Enerzijds dat een hecht samenwerkingsverband niet vanzelf ontstaat, dat voor het winnen van vertrouwen tijd en veel inspanning nodig is. Maar misschien valt er ook inspiratie te halen uit het Amerikaanse voorbeeld. Martha Anderson vertegenwoordigt het National Digital Information Infrastructure and Preservation Program NDIIPP (spreek uit: nndip), en publiceerde daar onlangs een interessant artikel over in het International Journal of Digital Curation. NDIIPP is ontstaan in 2000 toen het Amerikaanse Congres 100 miljoen dollar ter beschikking stelde voor digitale duurzaamheidsprojecten. Geld is uiteraard een mooie drijfveer voor samenwerking, maar nu het geld zo'n beetje is uitgegeven, ziet Anderson dat vooral rond de content, rond inhoudelijke overeenkomsten tussen collecties, op heel natuurlijke wijze netwerken van samenwerkingspartners ontstaan. Binnen zulke netwerken ontstaan ook diverse 'stewardship' rollen die partners in het geheel kunnen vervullen. Het programma heeft inmiddels een stevige basis in de Amerikaanse samenleving, zo stevig dat organisaties er bij willen horen ook al levert het niet direct geld op.
Zouden we zoiets in Europa ook kunnen bouwen? Het is misschien geen toeval dat het succesvolle Duitse 'Kompetenznetzwerk Langzeitarchivierung' nestor zijn financiële start heeft gekregen van het Duitse Ministerie voor OCW.
(Zie ook het uitgebreide verslag van Chris Rusbridge van het Digital Curation Centre, die dieper ingaat op de meer technische lezingen; de teksten van de lezingen worden binnenkort gepubliceerd op de website van de conferentie.)
donderdag 2 oktober 2008
iPRES 2008 (1): boordevol & waardevol
De iPRES 2008 zit erop. Het was een boordevol en waardevol programma met 'snapshots' (presentaties van 15 minuten) van activiteiten op het gebied van digitale duurzaamheid van over de hele wereld, na te lezen in de uitgebreidere proceedings die al tijdens de conferentie ter beschikking werden gesteld. Het hoofd zit even helemaal vol. In de komende dagen een aantal blogs met hoogtepunten.
maandag 8 september 2008
Wat is een "nationale infrastructuur"?
De term "nationale infrastructuur" die de NCDD in haar missie heeft staan, zorgt nog wel eens voor misverstanden. Want wat stellen we ons daarbij voor? Een nationaal digitaal depot? Een landelijke overkoepelende digitale duurzaamheids politie? Een instituut dat landelijke normen dicteert? En wat betekent "nationaal" in dit verband? Dat de faciliteiten stoppen bij onze landsgrenzen? Dat er voor regionale organisaties geen plaats is?
Laat ik voorop stellen dat het laatste woord over hoe die infrastructuur eruit moet zien nog lang niet is gesproken. De Nationale Verkenning Digitale Duurzaamheid zal veel betrokkenen in het land nog vragen wat hun wensen zijn. Maar een aantal contouren worden nu al zichtbaar:
- Een nationale infrastructuur zal hoogstwaarschijnlijk niet de vorm krijgen van één landelijke organisatie. We denken eerder in termen van netwerken van bestaande organisaties die onderling afspraken maken over wie wat bewaart en hoe, en die waar mogelijk kennis en faciliteiten delen.
- Een nationale infrastructuur, zeker op het gebied van digitale data, heeft anno 2008 altijd internationale uitlopers. Vooral in de beta-wetenschappen wordt op grote schaal internationaal data opgeslagen en gedeeld. Toch blijkt structurele financiering vaak nog een kwestie van nationale overheden. Iedere netwerk-infrastructuur zal daarom zowel nationale als internationale elementen bevatten.
- De NCDD kijkt naar de hele publieke sector, niet alleen naar nationale instellingen. De NCDD streeft naar een digitaal duurzaam vangnet voor alle informatie uit de publieke sector die bewaard moet worden: lokaal, regionaal, nationaal. Grote instellingen zullen vaak hun eigen digitale data beheren; kleinere instellingen zullen gaan samenwerken of hun data onderbrengen bij grotere datacentra. Dat moet allemaal nog goed georganiseerd worden.
Al met al denken we voorlopig aan een samenhangend stelsel van opslagplaatsen en samenwerkingsafspraken die - en dat is vaak nog het moeilijkst - voor de langetermijnopslag van data structureel, duurzaam worden gefinancierd. Dus geen houtje-touwtje-werk zoals ik onlangs in Engeland fotografeerde (foto boven).
maandag 14 juli 2008
Wetenschappelijke bibliotheken en digitale data
Op de rand van het vakantieseizoen vond van 1-5 juli in op de campus van Koç University in Istanbul de LIBER-conferentie van Europese wetenschappelijke en nationale bibliotheken plaats. Digitale data speelden een hoofdrol in het programma en op de NCDD-website heb ik geschreven over de rol die de Leeuwarder Courant en het KB e-Depot speelden op de conferentie. Hier een aantal zaken die me in hun algemeenheid opvielen:
Digitalisering als 'eind' van het duurzaamheidstraject
Het valt me op dat wanneer bibliotheken hun conserveringsprojecten bespreken, zij vaak 'digitalisering' nog zien als het einde van het traject. Die kwetsbare oude kranten zijn nu gelukkig gescand en daarmee voor de toekomst bewaard. Soms hoor je een voetnoot over het feit dat duurzame opslag van die scans nog geregeld moet worden, maar meestal ligt die actie voorbij de horizon van het project – en, niet te vergeten, de verkregen financiering.
Kwantiteit versus kwaliteit
Ricky Erway van OCLC provoceerde haar toehoorders met een citaat van Lorcan Dempsey: 'Quantity has a quality all of its own'. Zet zoveel mogelijk materiaal met beperkte Dublin Core metadata op internet, dat is veel beter dan losse objecten volmaakt ontsloten op het web te zetten. Erway verwees o.a. naar de keuze die het KB e-Depot recentelijk maakte voor JPEG2000 in plaats van het veel omvangrijker TIFF-formaat (rapport). Diverse sprekers noemden ook het belang van context voor de wetenschap: het digitaliseren van individuele objecten heeft nauwelijks zin als de context er niet bij geleverd kan worden. Sijbolt Noorda, voorzitter van de Nederlandse VSNU, refereerde aan de belangrijke ‘art of throwing away’ – want de kosten van duurzame opslag zullen enorm zijn.
Digitale data en de rol van wetenschappelijke bibliotheken
Waar de universiteitsbibliotheken zelf graag een rol voor zichzelf zien in de digitale informatiehuishouding van universiteiten (zie bijvoorbeeld het UKB-beleidsplan 2007-2010), oordeelde VSNU-voorzitter Sijbolt Noorda dat 'very few [universiteitsbibliotheken] developed into sustainable integrated e-support services for research and teaching & learning'. Mogelijk hebben de bibliotheken hier een belangrijke boot gemist: de diensten die onderzoekers nodig hebben voor opslag en uitwisseling van digitale data zijn per wetenschapsdiscipline heel verschillend. De onderzoekers hebben die diensten vaak zelf ontwikkeld, op internationale schaal en buiten het UB-netwerk om. Bibliotheken zouden 'digital assistants' aan moeten bieden, zo suggereerde Noorda, die onderzoekers helpen bij het ordenen van hun informatie. Daarbij mag de digitale dienstverlening geen eenheidsworst worden: diversificatie per wetenschapsdiscipline is essentieel. Het recente rapport 'To share or not to share' van het Engelse Research Information Network (RIN) wijst in dezelfde richting.
Vertrouwen en digitale duurzaamheid
Iedereen is het er nu wel over eens dat digitale data allerhande traditionele grenzen oversteken, en dat het duurzame beheer ervan samenwerking en coördinatie vereist, maar hoe die samenwerking concreet gestalte moet krijgen, is voorlopig nog een lastig te beantwoorden vraag. Noorda gaf toe dat er de nodige vooruitgang is geboekt: zo worden in DARE en DRIVER de institutional repositories gelinkt. Maar hoe tillen we dit soort initiatieven naar een nationaal, Europees of wereldwijd niveau?
In de bus op weg naar het congresdiner sprak ik Michael Jubb, directeur van het Engelse Research Information Network. Hij vertelde me hoe Engelse instellingen worstelen met de vraag hoe ze hun elektronische journals het beste duurzaam kunnen opslaan. Bij de KB? Bij Portico? Bij de British Library? Hoe weet je dat je data daar veilig staat?
Bij het Gemeentearchief in Rotterdam hoorde ik in juni archivarissen dezelfde zorg uitspreken: hoe kan een ander dan een beëdigd archivaris ooit de juridische verantwoordelijkheid nemen voor de authenticiteit van digitale objecten - in juridische termen de garantie dat het digitale object exact dezelfde inhoud bevat als het analoge? Wie kun je vertrouwen?
Die laatste vraag kun je deels beantwoorden door te werken aan certificering van digitale depots, initiatieven als het Safe Places Network zoals door de KB ontwikkeld. Maar er is meer voor nodig. Iedere sector heeft zijn eigen beroepseer, zijn eigen normenkader, zijn eigen cultuur. En die is niet altijd gemakkelijk te koppelen aan de cultuur van andere sectoren. Maar de informatie die we bewaren krijgt voor de gebruiker juist enorme meerwaarde als de technische én inhoudelijke context de eigen sector overschrijdt. Om over efficiency van opslag nog maar te zwijgen.
(Foto's van boven naar beneden: campus Koç University; Sijbolt Noorda; conferentiezaal met het preservation panel: Helen Shenton (British Library), Eddy van der Noord (Leeuwarder Courant) en op het spreekgestoelte Marcel Ras (KB e-Depot); Michael Jubb.
dinsdag 24 juni 2008
Gemeentarchief Rotterdam klaarvoor digitaal depot
Eind dit jaar moet het eindelijk zo ver zijn: na vier jaar van voorbereiding hoopt het Gemeentearchief Rotterdam (GAR) een werkend en gevuld E-depot te hebben. Nog zonder digitale balie, maar wel met een organisatie die is aangepast aan het verwerken van digitale informatie en met een metadatamodel dat alle verschillende collecties van het GAR aan elkaar weet te verbinden. Het E-depot wordt ontwikkeld in nauwe samenwerking met het Nationaal Archief.
Hoe hard er in Rotterdam gewerkt is om het E-depot te realiseren, bleek wel uit de Informatiedag die het GAR op donderdag 19 juni had georganiseerd om zijn kennis te delen met collega-archieven en andere instellingen betrokken bij duurzame digitale opslag. GAR-directeur Jantje Steenhuis (foto rechtsboven) zette direct de toon voor de dag door te benadrukken hoe belangrijk samenwerken is. Digitale duurzaamheid is complexe materie. Een Gemeente als Rotterdam kan dat misschien nog zelf financieren, maar voor kleinere archieven is duurzame digitale opslag alleen in samenwerking te realiseren.
Vervolgens liet een aantal GAR-medewerkers zien hoe zij ieder vanuit een eigen invalshoek bijdragen aan het E-depot. Martin de Bruijn presenteerde de digitale balie zoals Rotterdam die straks moet hebben: met integrale toegang tot alle digitale én analoge collecties, 100% vindbaarheid en faciliteiten om zoekresultaten te clusteren. Ronald Grootveld belichtte een stuk van de achterkant die daarvoor nodig is: de metadatabase die export uit vier heel verschillende collecties moet kunnen verwerken (Atlantis Atlas, Atlantis Bibliotheek, Mais Flexis en ABS-Archeion), en die naast actoren en objecten ook ruimte biedt aan 'authority files' van trefwoorden.
Het preserveringsteam van het GAR trad voltallig aan: v.l.n.r. Jacqueline Schuurman Hess (deelprojectleider), Jacob Takema (e-conservator) en Mette van Essen. Het team presenteerde het beleid dat erop is gericht om een hoogwaardig product te leveren: digitale bronnen moeten even betrouwbaar zijn als analoge bronnen, het onderhoud moet wel in verhouding blijven staan tot de gemaakte kosten, en de toegankelijkheid moet begrijpelijk zijn. Daarbij wordt ook nadrukkelijk gekeken naar in het buitenland ontwikkelde kennis, zoals het OAIS model en het Planets project. Speciale aandacht was er voor de technology watch. Het GAR suggereerde dat die misschien het beste in samenwerking gerealiseerd kon worden, en die uitnodiging werd opgepakt door Henk Koning van DANS en Inge Angevaare van de Nationale Coalitie Digitale Duurzaamheid. Direct werden plannen gesmeed om in september een nationale workshop technology watch te organiseren (nadere informatie via de NCDD-website).
Mette van Essen liet daarna een fraai staaltje digitale archeologie zien: een aantal videobanden uit 1998 met een 3D-weergave van het beeld van Erasmus leken op het eerste gezicht onleesbaar geworden, maar met het nodige kunst- en vliegwerk wist het team van het GAR de beelden weer tevoorschijn te toveren - hoewel de bronzen jas van Erasmus voorlopig nog een aantal flinke motten-gaten blijft vertonen. Dit ontlokte aan Jacqueline Schuurman Hess de opmerking dat preventie toch altijd de beste weg is.
Josje Everse, tenslotte (foto rechts), die de overall leiding heeft over het project E-depot, gaf een indruk van de consequenties die het invoeren van digitale archivering heeft voor de organisatie. Een E-depot is niet zomaar een zwarte kast die ergens in een computerkamer wordt gezet, en ook mag het volgens Josje geen aparte afdeling worden. Digitale archivering moet een werkproces worden dat net zo is ingeburgerd bij alle afdelingen als het analoge werkproces. Josje legt daarbij de nadruk op kennis verwerven in de praktijk en problemen oplossen met consensus. Want veranderen doe je volgens haar het beste in het reguliere werk.
De dag werd besloten met een zeer geanimeerde discussie over het onderwerp: zelf doen of uitbesteden? Jantje Steenhuis' mening was duidelijk: het bewaren van digitale documenten is een kerntaak van het archief en kerntaken besteed je niet uit. Een flink aantal aanwezige archivarissen was het met haar eens dat de wettelijke verantwoordelijkheid voor de authenticiteit van documenten alleen door een archivaris zelf kan worden gewaarborgd. Maar Filip Boudrez van het Antwerpse archief suggereerde dat het opslaan van de bits en de bytes misschien beter door data-experts gedaan zou kunnen worden. Ook lagere kosten en gedeelde expertise werden genoemd als voordelen van uitbesteden. Maar misschien zijn die voordelen ook te bereiken door intensieve samenwerking tussen diverse archieven. Om die te realiseren moet nog het nodige werk verzet worden, want momenteel hanteren diverse provinciale archiefinspecties nog niet eens dezelfde regels [zie nuancering van Ingmar Koch in reactie op deze laatste wat boude uitspraak].
SIPS, ADA's en andere Afko's
In de marge van de GAR-bijeenkomst bleek dat er onder archivarissen weinig animo bestaat om de door het LOPAI in ED3 voorgestelde Nederlandse vertalingen van de termen uit het OAIS-model te gaan hanteren. Jacqueline Schuurman Hess: 'De Engelse termen zijn zo ingeburgerd, die laten we zo.' Daarmee is ook het bezwaar ondervangen dat de term 'aangeboden digitaal archiefstuk (ADA)' wel heel specifiek is voor één sector en daarom de communicatie met andere instellingen zoals bibliotheken en de wetenschap kan bemoeilijken. Bovendien bevat een 'information package' meer dan alleen het object, namelijk ook de metadata. Voorlopig houden we het onder vakgenoten dus op de OAIS 'information packages'. (Zie voor reactie vanuit LOPAI, http://eisenduurzaamdigitaaldepot.blogspot.com/2008/06/terminologie-ed3.html en voor commentaar door Peter Horsman en Hans Waalwijk de Informatieprofessional van september 08).
maandag 16 juni 2008
Bewaren of gebruiken? (II)
Mijn vorige blog behoeft enige aanvulling. Natuurlijk is er in het digitale tijdperk materieel gezien geen sprake meer van bewaren of gebruiken. Het is nu een kwestie van financiering geworden. Geld dat je in duurzame conservering hebt gestoken kun je niet nog eens uitgeven aan mooie toegangssystemen. Metamorfoze kiest principieel voor de conserveringskant, zodat de deelnemende instelling opnieuw fondsen moet werven om de toegang te realiseren. Er zijn ook projecten die wel de toegang mogelijk maken, maar weer niet de duurzaamheid van de opslag. Vanwege het directe resultaat zijn die laatste over het algemeen zelfs gemakkelijker te financieren. Maar waar blijven ze zonder duurzame opslag . . . ?
vrijdag 13 juni 2008
Bewaren of gebruiken?
De discussie is zo oud als bibliotheken en archieven zelf: (in de zwart-wit-versie) laten we onze collecties gebruiken met het risico dat boeken of archiefstukken kapotgaan, of zorgen we ervoor dat ze perfect worden bewaard met als nadeel dat niemand er dan bij kan?
Ik hoopte dat we die discussie in het digitale tijdperk hadden opgelost omdat van digitale objecten altijd kopieën gemaakt kunnen worden, maar gisteren bleek mij tijdens een symposium van het nationale conserveringsprogramma Metamorfoze dat de kwestie nog steeds leeft. Marianne Peereboom van het Van Gogh-museum beschreef hoe de collectie brieven van Van Gogh in het kader van Metamorfoze momenteel wordt gedigitaliseerd. Het programma Metamorfoze heeft tot doel om ons papieren erfgoed 'voor de eeuwigheid' te bewaren, en daarom stelt het project hoge eisen aan de kwaliteit van de scans (zie de Richtlijnen). Die eisen, zo vertelde Marianne, zijn soms lastig te combineren met frequent gebruik. Toen Metamorfozes kwaliteitsmanager Hans van Dormolen gisteren iets vertelde over de nieuwe richtlijnen voor preservation imaging, kreeg ik een voorzichtige indruk van de verschillen. Blijkbaar is de controverse tussen bewaren en gebruiken dus ook in het digitale tijdperk nog niet zomaar van de baan.
Toch weten we allemaal dat bewaren geen nut heeft als we de informatie niet ook kunnen gebruiken. Ergens moet een compromis te vinden zijn. Zeker nu ook een belangrijk programma als Metamorfoze eind vorig jaar gekozen heeft voor digitalisering in plaats van microverfilming.
(foto: brief van Van Gogh, bron Van Gogh Museum).
vrijdag 6 juni 2008
Archivarissen starten ED3 blog
Enkele archivarissen van het Landelijk Overleg Provinciale Archiefinspecteurs (LOPAI) zijn een blog gestart rond het eergisteren verschenen toetsingskader 'Eisen duurzaam digitaal depot', kortweg ED3. Het adres: http://eisenduurzaamdigitaaldepot.blogspot.com.
Bij mijn weten is dit de tweede Nederlandse blog over digitale duurzaamheid. Bij voorbaat lezenswaard, dus.
Bij mijn weten is dit de tweede Nederlandse blog over digitale duurzaamheid. Bij voorbaat lezenswaard, dus.
donderdag 5 juni 2008
Onderzoeker verliest 1,5 jaar werk in TU-brand
Dr. Ozer Ciftioglu: 'Ik ben twee belangrijke manuscripten voor boeken kwijtgeraakt in de brand. In het ene zat een jaar werk, in het andere een half jaar. Het is allemaal weg, back-ups van computerbestanden bewaarde ik ook op mijn kamer. Ik weet niet wat ik nu moet doen. Ik kan niet meer terug of alles zomaar uit mijn hoofd opnieuw opschrijven. Wat moet ik tegen de redacteuren bij de uitgeverij zeggen? Ze hebben mij de opdracht gegeven voor deze boeken. Geven ze mij tijd om opnieuw te beginnen? Ik weet het niet.'
(overgenomen uit TUDelta).
Aan de positieve kant valt te melden dat een groot deel van de bibliotheek inmiddels in redelijk tot goede staat uit het pand is gehaald. Inclusief de kluis met bijzondere oude boeken.
(overgenomen uit TUDelta).
Aan de positieve kant valt te melden dat een groot deel van de bibliotheek inmiddels in redelijk tot goede staat uit het pand is gehaald. Inclusief de kluis met bijzondere oude boeken.
donderdag 22 mei 2008
De kosten van digitale duurzaamheid (II)
Onlangs verscheen het JISC-rapport Keeping research data safe: a cost model and guidance for UK universities, door Neil Beagrie, Julia Chruszcz en Brian Lavoie. Het is erg toegespitst op de Engelse situatie, en Beagrie schrijft zelf verontschuldigend dat het met drie case studies niet al te breed van opzet is (zodat diverse Aanbevelingen vragen om Meer Onderzoek), maar de lijst met activiteiten waar het management van een digitaal archief rekening mee moet houden ziet er gedegen uit, als ook de lijst met afhankelijkheden die de kostprijs mede bepalen. Vooraf goed nadenken over wat je precies wilt bewaren, voor hoe lang en voor wie (de welbekende OAIS ‘designated community’) is de sleutel. Achteraf materiaal deselecteren of bestanden repareren is erg duur en af te raden.
Andere (voorlopige) conclusies:
- De kosten voor het opslaan van onderzoeksgegevens zijn veel hoger dan voor publicaties, want de bestanden zijn gevarieerder en complexer van aard. Bovendien heb je waarschijnlijk te maken met een diverse (= bewerkelijke) groep aanbieders.
- Meer dan 70% van de kosten gaat zitten in arbeidsloon.
- De meeste kosten worden aan het begin gemaakt. Een schatting: acquisitie en ingest ca. 42%, archiveren en duurzaamheidsacties ca. 23% en toegang 35%.
- Schaalgrootte leidt tot kostenvermindering. Grofweg: 600% meer volume leidde tot 300% meer kosten.
- De diverse takken van wetenschap hebben heel verschillende manieren om data te gebruiken en te hergebruiken. Daarom moet er zoveel mogelijk worden opgeslagen in nationale of internationale discipline-georiënteerde archieven.
Een interessante toegevoegde case study is die van de Archaeological Data Service (p. 87-94), die inmiddels tien jaar ervaring heeft opgedaan met digitale archivering tegen vergoeding. Anders dan bijvoorbeeld bij DANS in Nederland betaalt de organisatie die het onderzoek financiert een eenmalige bijdrage aan de ADS voor opname van de onderzoeksdata, waarna die duurzaam worden opgeslagen en vrij beschikbaar zijn voor hergebruik.Op de ADS-website staat het charging model. De aanloopkosten voor de ingest worden berekend in mandagen; daarna geldt een archief-vergoeding van ₤0,50 per Mb.
Ervaring bij de ADS doet vermoeden dat de apparatuur voor archivering eens in de vijf jaar moet worden vervangen. Diezelfde ADS becijfert op basis van een aantal inschattingen dat de kosten voor duurzame archivering inclusief migraties na 20 jaar nog slechts minimaal zullen zijn, omdat men verwacht dat de systemen steeds slimmer zullen worden en opslagmedia goedkoper. Daar staat dan wel weer tegenover dat het arbeidsloon flink zal stijgen (p. 91).
Andere (voorlopige) conclusies:
- De kosten voor het opslaan van onderzoeksgegevens zijn veel hoger dan voor publicaties, want de bestanden zijn gevarieerder en complexer van aard. Bovendien heb je waarschijnlijk te maken met een diverse (= bewerkelijke) groep aanbieders.
- Meer dan 70% van de kosten gaat zitten in arbeidsloon.
- De meeste kosten worden aan het begin gemaakt. Een schatting: acquisitie en ingest ca. 42%, archiveren en duurzaamheidsacties ca. 23% en toegang 35%.
- Schaalgrootte leidt tot kostenvermindering. Grofweg: 600% meer volume leidde tot 300% meer kosten.
- De diverse takken van wetenschap hebben heel verschillende manieren om data te gebruiken en te hergebruiken. Daarom moet er zoveel mogelijk worden opgeslagen in nationale of internationale discipline-georiënteerde archieven.
Een interessante toegevoegde case study is die van de Archaeological Data Service (p. 87-94), die inmiddels tien jaar ervaring heeft opgedaan met digitale archivering tegen vergoeding. Anders dan bijvoorbeeld bij DANS in Nederland betaalt de organisatie die het onderzoek financiert een eenmalige bijdrage aan de ADS voor opname van de onderzoeksdata, waarna die duurzaam worden opgeslagen en vrij beschikbaar zijn voor hergebruik.Op de ADS-website staat het charging model. De aanloopkosten voor de ingest worden berekend in mandagen; daarna geldt een archief-vergoeding van ₤0,50 per Mb.
Ervaring bij de ADS doet vermoeden dat de apparatuur voor archivering eens in de vijf jaar moet worden vervangen. Diezelfde ADS becijfert op basis van een aantal inschattingen dat de kosten voor duurzame archivering inclusief migraties na 20 jaar nog slechts minimaal zullen zijn, omdat men verwacht dat de systemen steeds slimmer zullen worden en opslagmedia goedkoper. Daar staat dan wel weer tegenover dat het arbeidsloon flink zal stijgen (p. 91).
vrijdag 16 mei 2008
Wat is een 'goede' archief-PDF?
De Koninklijke Bibliotheek heeft onlangs onderzoek gedaan naar conversietools die MS Office-documenten kunnen omzetten in het veel duurzamere PDF-archiefformaat (kortweg: PDF/a). Een testbestand werd met behulp van verschillende tools geconverteerd en het resultaatbestand werd beoordeeld op inhoud, uiterlijk en structuur. Daarbij bleek dat geen van de tools een bestand kan opleveren dat valide is, d.w.z. dat voldoet aan de officiële grammaticaregels van PDF/a. Betekent dit dat de resultaten onbruikbaar zijn?
Zo zwart-wit ligt het allemaal niet, legt onderzoeker Wouter Kool uit. Weliswaar geeft een valide PDF/a waarschijnlijk de beste langetermijnresultaten, maar het is niet gezegd dat een bestand dat maar voor 90% voldoet aan die eis door de mand zal vallen in een elektronisch archief. Dat moet de toekomst nog uitwijzen. Bovendien hangt het er maar van af waar wat je belangrijk vindt. Over de hele linie kwam de MSOffice add-in als beste uit de bus, met PdfMaker van Adobe als goede tweede. OpenOffice doet het goed als je wel belang hecht aan structuur, maar minder aan uiterlijk. Printerdriver tools doen net weer het omgekeerde.
Zo zwart-wit ligt het allemaal niet, legt onderzoeker Wouter Kool uit. Weliswaar geeft een valide PDF/a waarschijnlijk de beste langetermijnresultaten, maar het is niet gezegd dat een bestand dat maar voor 90% voldoet aan die eis door de mand zal vallen in een elektronisch archief. Dat moet de toekomst nog uitwijzen. Bovendien hangt het er maar van af waar wat je belangrijk vindt. Over de hele linie kwam de MSOffice add-in als beste uit de bus, met PdfMaker van Adobe als goede tweede. OpenOffice doet het goed als je wel belang hecht aan structuur, maar minder aan uiterlijk. Printerdriver tools doen net weer het omgekeerde.
dinsdag 29 april 2008
De duurzame kant
van vluchtige e-mail
Misschien denk je bij e-mail juist niet aan digitale duurzaamheid maar aan honderden, duizenden vijf-of-tiensecondenberichtjes én aan de onvermijdelijke waarschuwingen van je IT-afdeling dat je je mailbox nu eens echt moet gaan opschonen. Waarna je ongezien de onderste helft van je inbox in de digitale prullenmand laat verdwijnen.
Toch zijn er redenen om anders naar e-mail te kijken, zo bleek tijdens een bijeenkomst van de RMC-conventie op 23 april jl. In de Verenigde Staten (where else?) zijn niet alleen rechtzaken beslist op basis van e-mail, maar zijn zelfs partijen veroordeeld wegens het niet bewaren van relevante e-mailwisselingen, zo meldde advocaat M. James Daley. In Nederland kennen we het Srebrenica-onderzoek met getuigenverklaringen per e-mail.
Maar hoe orden je die immense brij aan data? Hoe scheid je relevant van niet-relevant? Tijdens de koffiepauze hoorde ik een medewerker van Justitie vertellen dat hij koos voor het opslaan van grote massa's data. Aangezien nog maar een fractie van die data later ooit weer opgevraagd zou worden, liet hij het zoekwerk liever over aan de toekomst. Chris Bellekom, oud-KB'er en nu werkzaam bij de Gemeente Gouda, dacht daar anders over: 'Garbage in, garbage out' is zijn motto. Ordenen bij de creatie, dus.
Twee vertegenwoordigers van grote multinationals gaven een interessant kijkje in hun interne e-mailkeuken: Robert Rongen van Philips en John Mulgrew van Microsoft. Beide bedrijven hebben beleid ontwikkeld voor het managen van hun omvangrijke e-mailverkeer; beide gaan uit van centrale e-mailopslag (immers: 'store local, lose local'), maar de manier waarop verschilt.
Philips kiest voor de welbekende 'sense & simplicity'-benadering. Een medewerker die een e-mail ontvangt of verzendt kan daarvan met één druk op de knop een 'record' maken. Dit record wordt dan centraal opgeslagen voor een periode van 10 tot 15 jaar (daarover moet nog worden beslist). Voor VIPs kan een 'bewaar-alles'-routine worden ingebouwd in het systeem.
Microsoft gaat veel verder in zijn centrale benadering. De gigantische hoeveelheden e-mail (zo'n 13 miljoen per dag) worden door een centrale Exchange Server gesorteerd voor diverse bewaartermijnen. In het systeem kunnen allerlei criteria worden ingevoerd: het onderwerp, de afzender of ontvanger (bijvoorbeeld alle e-mail tussen advocaten), het aantal ontvangers, enz. enz. Dit gebeurt allemaal volautomatisch, de gebruiker merkt er niets van. Die gebruiker kan er zelf voor kiezen om daarnaast eigen e-mail archiefmappen te maken (indien hij een 'filer' is); als hij een zogenaamde 'piler' is, kan hij alles ook overlaten aan het systeem.
Maar áls je e-mail wilt bewaren, hoe doe je dat dan? Aan het eind van de middag gaf Jacqueline Slats van het Nationaal Archief daar praktische richtlijnen voor. Onder het motto: 'De archivaris, dat bent u', pleitte Jacqueline voor zorg aan de bron: zorg voor duidelijke adressen; zet altijd je eigen naam en adres onderaan een mail; zet geen antwoorden tussen de tekst van anderen door; zet de informatie om in een duurzaam open-source formaat (XML). En zo zijn er nog meer richtlijnen, terug te vinden in de kennisbank van het Nationaal Archief. Dit alles moet onderdeel zijn van een strategisch informatieplan, zo betoogde Erik Oltmans van Thaesis, 'om te vinden en gevonden te worden'.
zaterdag 19 april 2008
Nieuwe allianties,
nieuwe businessmodellen
Op vrijdag 18 april presenteerde het Instituut voor Beeld en Geluid onder de merknaam Proarchive een fraai dienstenpakket voor encoding, duurzame digitale opslag en beschikbaarstelling van audiovisueel materiaal voor organisaties die zelf geen digitaal depot kunnen of willen bouwen. Uit de vele presentaties haal ik hier twee elementen die van belang zijn voor de toekomst van digitale duurzaamheid:
Nieuwe allianties en coalities
In zijn keynote toespraak onder de titel 'Verleden vandaag' benadrukte Paul Rutten (hoogleraar digitale mediastudies in Leiden) hoezeer de traditionele afbakening van taken tussen de diverse media-instellingen (en daarbij kun je ook denken aan uitgevers, bibliotheken, archieven, de wetenschap) door de digitalisering onder druk is komen te staan. Zo archiveert de Koninklijke Bibliotheek websites, maar die bevatten ook uitzendingen van publieke omroepen die Beeld en Geluid tot zijn taak rekent; een regionaal archief is verantwoordelijk voor de digitalisering van kranten die ook door de KB worden opgeslagen; een student zoekt naar informatie over een onderwerp, en verwacht dat internet hem daar toegang toe geeft, ongeacht de vorm waarin die informatie beschikbaar is en waar die zich bevindt (boek, archiefstuk, televisie-uitzending).
Soms leiden deze 'grensgeschillen' tot fricties tussen instellingen die aan de ene kant aanvullende diensten bieden en samen willen werken maar aan de andere kant concurrenten zijn in de strijd om de schaarse middelen. De noodzaak om zichzelf te profileren leidt dan soms tot keuzes die niet altijd in het belang van de belastingbetaler zijn. De NCDD wil met al deze partijen graag om de tafel gaan zitten om te komen tot goede afspraken over selectie en mandaten. (Foto rechts: DANS, DEN, Beeld en Geluid en ECPA in gesprek - nieuwe allianties in de maak?).
Digitale duurzaamheid kost geld, van wieg tot graf
Zoals ook de Raad voor Cultuur en de Raad voor het openbaar bestuur onlangs bevestigden, kost het 'hebben' van digitale data jaarlijks geld, zo lang de informatie wordt bewaard. Het beleid van 'benign negligence' (zoals Adrian Wilson dat zo fraai formuleerde) werkte vaak nog wonderbaarlijk goed ten aanzien van informatie op papier, maar voor digitale informatie is het echt onbruikbaar geworden.
Heel langzaamaan krijgen we meer inzicht in wat digitale opslag kost - en dat valt niet mee. Beeld en Geluid is met Proarchive de eerste Nederlandse instelling die een prijskaartje aan digitale opslag hangt - voor het abonnement wordt in eerste instantie €1.000 per terabyte per jaar gevraagd (exclusief aanvullende diensten als metadatering, encoding en beschikbaarstelling). 'Wijzigingen voorbehouden' wordt er nadrukkelijk bij gezet, want abonnementen op digitale opslag zijn een nieuw product en men moet er nog ervaring mee opdoen. Van belang is ook om aan te tekenen dat Beeld en Geluid er bij deze prijsstelling van uit gaat dat de grote investeringen in de infrastructuur door het instituut al zijn gedaan en dat alleen het extra gebruik hoeft te worden vergoed, als dienst aan de samenleving. Voor profit-klanten zal men waarschijnlijk ook een ander businessmodel gaan hanteren.
Om een idee te geven: Beeld en Geluid zelf heeft op dit moment 1,3 petabyte aan digitale data en schat dat er bij andere Nederlandse instellingen nog zo'n 4,5 petabyte aan audiovisueel materiaal staat (exclusief audio, foto's en films). (1 petabyte = 1024 terabyte). Een hoeveelheid die dagelijks explosief toeneemt.
Zowel tijdens Economies of the Commons' als tijdens deze presentatie werd de vraag gesteld hoe we die duurzame financiering moeten vinden. Want vooralsnog is er vooral veel projectgeld om de digitalisering zelf te doen, maar weinig structureel geld om wat er gedigitaliseerd is ook goed te bewaren. Dat is een taai probleem - dat dringend om aandacht vraagt.
zaterdag 12 april 2008
(Gebrek aan) duurzaamheid in de praktijk
Een van de interessantste presentaties tijdens de Significant Properties conferentie van 7 april in London was voor mij die van Cal Lee van de altijd actieve School of Information and Library Science van de University of North Carolina (Cal hier rechts op de foto, naast Helen Hockx-Yu van Planets). Hij liet aan de hand van een voorbeeld uit de praktijk zien hoeveel moeite het kost om aan de hand van digitale documenten onze recente geschiedenis te reconstrueren. De onderzoeker kreeg de beschikking over de e-mail correspondentie uit het kantoor van Governor Hunt uit de periode 1997-2001. Het ging om zo'n 61.000 e-mails met 14 duizend bijlagen. Een greep uit de problemen die men tegenkwam:
- van de 41 accounts bleken er 5 besmet te zijn met virussen, o.a. het beroemde Kournikova virus;
- de bijlagen bestonden uit een grote diversiteit aan bestandsformaten en er waren diverse softwareversies gebruikt, die allemaal weer een eigen aanpak vragen;
- een flink aantal bestanden had een bestandsnaam die veel te lang was om door de onderzoekssoftware te komen;
en uiteindelijk het grootste probleem:
- de complexiteit van de Word-documenten die wij iedere dag in grote hoeveelheden produceren, met allerhande (vaak op het scherm verborgen) opmaakfaciliteiten, mogelijkheden om wijzigingen bij te houden, enz. enz., wat het allemaal niet gemakkelijk maakt om uit de enorme brij aan éénen en nullen de essentie ('significant properties') te halen. En ten slotte
- Microsoft geeft veel te weinig informatie over zijn software om deze problemen te kunnen oplossen; de gegeven algorithmes geven niet de oplossingen die men zoekt.
Lee's presentatie geeft maar weer aan hoe belangrijk het is om bij het maken van informatie al na te denken over aspecten van digitale duurzaamheid. Het devies blijft dus luiden: informatie die voor later van belang is nooit opslaan in Word, maar tenminste omzetten in PDF.
Foto: uit Nederland waren o.a. het Nationaal Archief, de Koninklijke Bibliotheek en de NCDD aanwezig.
(Foto's BL/JISC en DPC)
Verslagen conferentie 'Essentiële Eigenschappen'
Presentaties, verslagen en foto's van de conferentie over 'essentiële eigenschappen' zijn inmiddels verschenen bij DPConline en het Digital Curation Centre.
donderdag 10 april 2008
'Change is inevitable'
Ergens in London loopt een dief rond met een aktetas vol wijsheden over de 'significant properties' (essentiële eigenschappen) van digitale objecten - of zou het water van de Thames mijn vulpeninkt al hebben uitgewist? Wat me in elk geval is bijgebleven van de door de Engelse collega's van de Digital Preservation Coalition georganiseerde conferentie is de waarheid-als-een-koe van Andrew Wilson van de Australische nationale archieven: 'Change is inevitable'. Waar een gebedenboek uit de middeleeuwen 800 jaar lang leesbaar is gebleven, ook al is het onder slechte omstandigheden bewaard, kunnen we een Wordstarbestandje van pakweg 20 jaar geleden met de computers van vandaag al niet meer lezen.
En dát maakt digitale informatie zo totaal anders dan informatie op papier. Als we niets doen, gaat de informatie verloren. We moeten aan de bitstreams sleutelen om ze leesbaar te houden. Maar daarbij gaat ook wel eens iets mis. En de grote vraag is hoeveel er mis mag gaan voordat de informatie zijn betekenis verliest, welke 'essentiële eigenschappen' je in elk geval over moet houden. Als de layout van deze blog wordt veranderd, doet dat niets af aan de inhoud, maar als je de layout uit een tabel haalt, blijft er een onbegrijpelijke brij over.
Een deelnemer aan de conferentie suggereerde dat we er daarom maar voor moeten zorgen dat er geen bitje omvalt en alles precies bewaard blijft. Dat is een nobel streven, maar helaas ook een ontzettend duur streven. Daar gaat trouwens de volgende conferentie over die ik in London ga bijwonen: wat gaat dat allemaal kosten?
Deze trip kostte mij helaas een tas, een paspoort, autopapieren, al mijn aantekeningen en mijn favoriete vulpen. Lastig, . . . maar het bleken gelukkig geen 'essentiële eigenschappen' van me te zijn.
Van de nood een deugd maken: lente in Kensington Gardens tijdens het wachten op mijn noodpaspoort.
vrijdag 28 maart 2008
Digitale cultuur bewaren
Op zijn eigen prikkelende en onnavolgbare wijze heeft John Mackenzie Owen deze week tijdens een besloten lezing in Den Haag zijn visie nog eens samengevat op de meer organisatorische kanten van digitale duurzaamheid:
Om met het eerste te beginnen: natuurlijk is de informatiewereld een mondiale geworden. Maar "de wereld" is een niet te managen eenheid. En daarom grijpen we terug op de organisatorische, politieke, financiële eenheden die we kennen en die wel te behappen zijn, zoals landen (NCDD). Dat is een vorm van roeien met de riemen die we hebben. Vervolgens worden die behapbare eenheden weer gebundeld in supra-nationale verbanden als de Europese Alliance for Permanent Access waar de NCDD lid van is - ook nog niet wereldwijd, maar toch weer een stap in de goede richting.
Dan Mackenzie Owens tweede punt: we moeten bij het selecteren van informatie voor digitale duurzaamheid onze aandacht verschuiven van productie naar consumptie. We zouden moeten bewaren wat we nodig hebben, niet wat we gemaakt hebben. Het is goed dat Mackenzie Owen ons eraan herinnert waar we het eigenlijk voor doen: niet om zo maar op te slaan, maar om (her-)gebruik mogelijk te maken. Het probleem is alleen dat we de productie kennen, die ligt in tijd altijd achter ons, maar wie kan er iets zinnigs zeggen over het gebruik dat de toekomst van informatie zal willen maken?
Wat we anno 2008 weten van het verleden is voornamelijk geselecteerd door Het Toeval - de smaak van de dag op het gebied van beeldende kunst, de verzamelwoede van eenlingen of organisaties, het toevallig niet gebombardeerd worden van bepaalde plaatsen, en ga zo maar door. En wat wij gaan bewaren wordt hoe dan ook bepaald door onze eigen keuzes en prioriteiten, niet die van de toekomst. Hoe 'major' kan de transformatie dan worden?
(Zie voor meer achtergrondinformatie ook Mackenzie Owens bijdrage aan de UNESCO-conferentie uit eind 2005).
Preserving Digital Culture
- In a global, networked world, information is a global
commodity. A focus on 'national' information makes
little sense.
- Contemporary culture is not defined by information
produced, but by information consumed.
- Preserving the information fabric of society requires
capturing information use.
- This requires a major transformation of our memory
institutions.
Om met het eerste te beginnen: natuurlijk is de informatiewereld een mondiale geworden. Maar "de wereld" is een niet te managen eenheid. En daarom grijpen we terug op de organisatorische, politieke, financiële eenheden die we kennen en die wel te behappen zijn, zoals landen (NCDD). Dat is een vorm van roeien met de riemen die we hebben. Vervolgens worden die behapbare eenheden weer gebundeld in supra-nationale verbanden als de Europese Alliance for Permanent Access waar de NCDD lid van is - ook nog niet wereldwijd, maar toch weer een stap in de goede richting.
Dan Mackenzie Owens tweede punt: we moeten bij het selecteren van informatie voor digitale duurzaamheid onze aandacht verschuiven van productie naar consumptie. We zouden moeten bewaren wat we nodig hebben, niet wat we gemaakt hebben. Het is goed dat Mackenzie Owen ons eraan herinnert waar we het eigenlijk voor doen: niet om zo maar op te slaan, maar om (her-)gebruik mogelijk te maken. Het probleem is alleen dat we de productie kennen, die ligt in tijd altijd achter ons, maar wie kan er iets zinnigs zeggen over het gebruik dat de toekomst van informatie zal willen maken?
Wat we anno 2008 weten van het verleden is voornamelijk geselecteerd door Het Toeval - de smaak van de dag op het gebied van beeldende kunst, de verzamelwoede van eenlingen of organisaties, het toevallig niet gebombardeerd worden van bepaalde plaatsen, en ga zo maar door. En wat wij gaan bewaren wordt hoe dan ook bepaald door onze eigen keuzes en prioriteiten, niet die van de toekomst. Hoe 'major' kan de transformatie dan worden?
(Zie voor meer achtergrondinformatie ook Mackenzie Owens bijdrage aan de UNESCO-conferentie uit eind 2005).
donderdag 20 maart 2008
Complex én praktisch
De KB heeft gisteren een rapport gepubliceerd over alternatieve bestandsformaten voor digitaliseringsprojecten. Het is nogal een technisch rapport, maar twee aspecten vond ik ook voor niet-techneuten interessant:
Ten eerste: een snelle scan door het eerste deel van het rapport geeft ook een nieuwkomer een goede indruk van hoe complex en hoe groot digitale duurzaamheid wel niet is. Van ieder pixeltje van iedere huis-tuin-en-keuken-foto moeten in 0101010 codes allerhande eigenschappen worden vastgelegd: kleur, helderheid, contrast, positie, enz. Eén enkele foto is al gauw 3 megabyte aan data, dat zijn 3 x 1024 x 1024 x 8 = 25.165.824 bitjes. Nogmaals: voor één foto. En als er één bitje omvalt kan de foto al onleesbaar worden.
Ten tweede: bij het rapport zit ook een annex over het systeem dat de KB heeft ontwikkeld om bestandsformaten te beoordelen op hun geschiktheid voor langetermijnopslag. Ook voor wie alle details niet begrijpt, kunnen die richtlijnen waardevol zijn. Wie zijn data aan de bron opslaat in een bestandsformaat met goede duurzaamheidskenmerken, heeft al de helft gewonnen.
Zeer kort samengevat: De KB adviseert PDF/A en ziet in JPEG2000 een goed alternatief voor (te grote) TIFF-bestanden.
Ten eerste: een snelle scan door het eerste deel van het rapport geeft ook een nieuwkomer een goede indruk van hoe complex en hoe groot digitale duurzaamheid wel niet is. Van ieder pixeltje van iedere huis-tuin-en-keuken-foto moeten in 0101010 codes allerhande eigenschappen worden vastgelegd: kleur, helderheid, contrast, positie, enz. Eén enkele foto is al gauw 3 megabyte aan data, dat zijn 3 x 1024 x 1024 x 8 = 25.165.824 bitjes. Nogmaals: voor één foto. En als er één bitje omvalt kan de foto al onleesbaar worden.
Ten tweede: bij het rapport zit ook een annex over het systeem dat de KB heeft ontwikkeld om bestandsformaten te beoordelen op hun geschiktheid voor langetermijnopslag. Ook voor wie alle details niet begrijpt, kunnen die richtlijnen waardevol zijn. Wie zijn data aan de bron opslaat in een bestandsformaat met goede duurzaamheidskenmerken, heeft al de helft gewonnen.
Zeer kort samengevat: De KB adviseert PDF/A en ziet in JPEG2000 een goed alternatief voor (te grote) TIFF-bestanden.
zondag 16 maart 2008
Vragen
Een nieuwe baan (eentje die nog een beetje lastig uit te leggen is op verjaardagen, 'Coordinator van watte . . .?'), een lege blog. En vragen, vooral veel vragen. Daarin sta ik niet alleen. Voor de nieuw opgerichte Nationale Coalitie voor Digitale Duurzaamheid (NCDD) startte ik afgelopen maandag een discussielijst, om de professionele collega's te bereiken én om te peilen hoeveel belangstelling er zou zijn. In minder dan vier dagen tijd had ik 55 aanmeldingen. Van allemaal informatieprofessionals in de publieke sector die zich afvragen hoe dat moet met hun digitale datasets, artikelen, publicaties. Het bewustzijn begint te groeien dat we die moeten bewaren, maar er zijn veel vragen over hoe en wat, door wie en voor wie. Het is lastig werken voor 'de toekomst', want dat is een gebruikersgroep die je niet kunt bevragen.
In eerste instantie heeft de Coalitie van haar leden twee jaar gekregen - om een overzicht te krijgen van wat er speelt in digitaal duurzaam Nederland en strategische aanbevelingen te doen voor het bouwen van een goede infrastructuur. Ook ik ga het land in met al mijn vragen. Van mijn zoektocht naar antwoorden zal ik in deze blog - officieus en geheel voor eigen rekening - verslag doen. Ik ben benieuwd.
In eerste instantie heeft de Coalitie van haar leden twee jaar gekregen - om een overzicht te krijgen van wat er speelt in digitaal duurzaam Nederland en strategische aanbevelingen te doen voor het bouwen van een goede infrastructuur. Ook ik ga het land in met al mijn vragen. Van mijn zoektocht naar antwoorden zal ik in deze blog - officieus en geheel voor eigen rekening - verslag doen. Ik ben benieuwd.
Abonneren op:
Posts (Atom)