dinsdag 29 april 2008

De duurzame kant
van vluchtige e-mail


Misschien denk je bij e-mail juist niet aan digitale duurzaamheid maar aan honderden, duizenden vijf-of-tiensecondenberichtjes én aan de onvermijdelijke waarschuwingen van je IT-afdeling dat je je mailbox nu eens echt moet gaan opschonen. Waarna je ongezien de onderste helft van je inbox in de digitale prullenmand laat verdwijnen.

Toch zijn er redenen om anders naar e-mail te kijken, zo bleek tijdens een bijeenkomst van de RMC-conventie op 23 april jl. In de Verenigde Staten (where else?) zijn niet alleen rechtzaken beslist op basis van e-mail, maar zijn zelfs partijen veroordeeld wegens het niet bewaren van relevante e-mailwisselingen, zo meldde advocaat M. James Daley. In Nederland kennen we het Srebrenica-onderzoek met getuigenverklaringen per e-mail.

Maar hoe orden je die immense brij aan data? Hoe scheid je relevant van niet-relevant? Tijdens de koffiepauze hoorde ik een medewerker van Justitie vertellen dat hij koos voor het opslaan van grote massa's data. Aangezien nog maar een fractie van die data later ooit weer opgevraagd zou worden, liet hij het zoekwerk liever over aan de toekomst. Chris Bellekom, oud-KB'er en nu werkzaam bij de Gemeente Gouda, dacht daar anders over: 'Garbage in, garbage out' is zijn motto. Ordenen bij de creatie, dus.

Twee vertegenwoordigers van grote multinationals gaven een interessant kijkje in hun interne e-mailkeuken: Robert Rongen van Philips en John Mulgrew van Microsoft. Beide bedrijven hebben beleid ontwikkeld voor het managen van hun omvangrijke e-mailverkeer; beide gaan uit van centrale e-mailopslag (immers: 'store local, lose local'), maar de manier waarop verschilt.


Philips kiest voor de welbekende 'sense & simplicity'-benadering. Een medewerker die een e-mail ontvangt of verzendt kan daarvan met één druk op de knop een 'record' maken. Dit record wordt dan centraal opgeslagen voor een periode van 10 tot 15 jaar (daarover moet nog worden beslist). Voor VIPs kan een 'bewaar-alles'-routine worden ingebouwd in het systeem.

Microsoft gaat veel verder in zijn centrale benadering. De gigantische hoeveelheden e-mail (zo'n 13 miljoen per dag) worden door een centrale Exchange Server gesorteerd voor diverse bewaartermijnen. In het systeem kunnen allerlei criteria worden ingevoerd: het onderwerp, de afzender of ontvanger (bijvoorbeeld alle e-mail tussen advocaten), het aantal ontvangers, enz. enz. Dit gebeurt allemaal volautomatisch, de gebruiker merkt er niets van. Die gebruiker kan er zelf voor kiezen om daarnaast eigen e-mail archiefmappen te maken (indien hij een 'filer' is); als hij een zogenaamde 'piler' is, kan hij alles ook overlaten aan het systeem.


Maar áls je e-mail wilt bewaren, hoe doe je dat dan? Aan het eind van de middag gaf Jacqueline Slats van het Nationaal Archief daar praktische richtlijnen voor. Onder het motto: 'De archivaris, dat bent u', pleitte Jacqueline voor zorg aan de bron: zorg voor duidelijke adressen; zet altijd je eigen naam en adres onderaan een mail; zet geen antwoorden tussen de tekst van anderen door; zet de informatie om in een duurzaam open-source formaat (XML). En zo zijn er nog meer richtlijnen, terug te vinden in de kennisbank van het Nationaal Archief. Dit alles moet onderdeel zijn van een strategisch informatieplan, zo betoogde Erik Oltmans van Thaesis, 'om te vinden en gevonden te worden'.

zaterdag 19 april 2008

Nieuwe allianties,
nieuwe businessmodellen


Op vrijdag 18 april presenteerde het Instituut voor Beeld en Geluid onder de merknaam Proarchive een fraai dienstenpakket voor encoding, duurzame digitale opslag en beschikbaarstelling van audiovisueel materiaal voor organisaties die zelf geen digitaal depot kunnen of willen bouwen. Uit de vele presentaties haal ik hier twee elementen die van belang zijn voor de toekomst van digitale duurzaamheid:

Nieuwe allianties en coalities
In zijn keynote toespraak onder de titel 'Verleden vandaag' benadrukte Paul Rutten (hoogleraar digitale mediastudies in Leiden) hoezeer de traditionele afbakening van taken tussen de diverse media-instellingen (en daarbij kun je ook denken aan uitgevers, bibliotheken, archieven, de wetenschap) door de digitalisering onder druk is komen te staan. Zo archiveert de Koninklijke Bibliotheek websites, maar die bevatten ook uitzendingen van publieke omroepen die Beeld en Geluid tot zijn taak rekent; een regionaal archief is verantwoordelijk voor de digitalisering van kranten die ook door de KB worden opgeslagen; een student zoekt naar informatie over een onderwerp, en verwacht dat internet hem daar toegang toe geeft, ongeacht de vorm waarin die informatie beschikbaar is en waar die zich bevindt (boek, archiefstuk, televisie-uitzending).
Soms leiden deze 'grensgeschillen' tot fricties tussen instellingen die aan de ene kant aanvullende diensten bieden en samen willen werken maar aan de andere kant concurrenten zijn in de strijd om de schaarse middelen. De noodzaak om zichzelf te profileren leidt dan soms tot keuzes die niet altijd in het belang van de belastingbetaler zijn. De NCDD wil met al deze partijen graag om de tafel gaan zitten om te komen tot goede afspraken over selectie en mandaten. (Foto rechts: DANS, DEN, Beeld en Geluid en ECPA in gesprek - nieuwe allianties in de maak?).

Digitale duurzaamheid kost geld, van wieg tot graf
Zoals ook de Raad voor Cultuur en de Raad voor het openbaar bestuur onlangs bevestigden, kost het 'hebben' van digitale data jaarlijks geld, zo lang de informatie wordt bewaard. Het beleid van 'benign negligence' (zoals Adrian Wilson dat zo fraai formuleerde) werkte vaak nog wonderbaarlijk goed ten aanzien van informatie op papier, maar voor digitale informatie is het echt onbruikbaar geworden.


Heel langzaamaan krijgen we meer inzicht in wat digitale opslag kost - en dat valt niet mee. Beeld en Geluid is met Proarchive de eerste Nederlandse instelling die een prijskaartje aan digitale opslag hangt - voor het abonnement wordt in eerste instantie €1.000 per terabyte per jaar gevraagd (exclusief aanvullende diensten als metadatering, encoding en beschikbaarstelling). 'Wijzigingen voorbehouden' wordt er nadrukkelijk bij gezet, want abonnementen op digitale opslag zijn een nieuw product en men moet er nog ervaring mee opdoen. Van belang is ook om aan te tekenen dat Beeld en Geluid er bij deze prijsstelling van uit gaat dat de grote investeringen in de infrastructuur door het instituut al zijn gedaan en dat alleen het extra gebruik hoeft te worden vergoed, als dienst aan de samenleving. Voor profit-klanten zal men waarschijnlijk ook een ander businessmodel gaan hanteren.

Om een idee te geven: Beeld en Geluid zelf heeft op dit moment 1,3 petabyte aan digitale data en schat dat er bij andere Nederlandse instellingen nog zo'n 4,5 petabyte aan audiovisueel materiaal staat (exclusief audio, foto's en films). (1 petabyte = 1024 terabyte). Een hoeveelheid die dagelijks explosief toeneemt.

Zowel tijdens Economies of the Commons' als tijdens deze presentatie werd de vraag gesteld hoe we die duurzame financiering moeten vinden. Want vooralsnog is er vooral veel projectgeld om de digitalisering zelf te doen, maar weinig structureel geld om wat er gedigitaliseerd is ook goed te bewaren. Dat is een taai probleem - dat dringend om aandacht vraagt.

zaterdag 12 april 2008

(Gebrek aan) duurzaamheid in de praktijkEen van de interessantste presentaties tijdens de Significant Properties conferentie van 7 april in London was voor mij die van Cal Lee van de altijd actieve School of Information and Library Science van de University of North Carolina (Cal hier rechts op de foto, naast Helen Hockx-Yu van Planets). Hij liet aan de hand van een voorbeeld uit de praktijk zien hoeveel moeite het kost om aan de hand van digitale documenten onze recente geschiedenis te reconstrueren. De onderzoeker kreeg de beschikking over de e-mail correspondentie uit het kantoor van Governor Hunt uit de periode 1997-2001. Het ging om zo'n 61.000 e-mails met 14 duizend bijlagen. Een greep uit de problemen die men tegenkwam:
- van de 41 accounts bleken er 5 besmet te zijn met virussen, o.a. het beroemde Kournikova virus;
- de bijlagen bestonden uit een grote diversiteit aan bestandsformaten en er waren diverse softwareversies gebruikt, die allemaal weer een eigen aanpak vragen;
- een flink aantal bestanden had een bestandsnaam die veel te lang was om door de onderzoekssoftware te komen;
en uiteindelijk het grootste probleem:
- de complexiteit van de Word-documenten die wij iedere dag in grote hoeveelheden produceren, met allerhande (vaak op het scherm verborgen) opmaakfaciliteiten, mogelijkheden om wijzigingen bij te houden, enz. enz., wat het allemaal niet gemakkelijk maakt om uit de enorme brij aan éénen en nullen de essentie ('significant properties') te halen. En ten slotte
- Microsoft geeft veel te weinig informatie over zijn software om deze problemen te kunnen oplossen; de gegeven algorithmes geven niet de oplossingen die men zoekt.


Lee's presentatie geeft maar weer aan hoe belangrijk het is om bij het maken van informatie al na te denken over aspecten van digitale duurzaamheid. Het devies blijft dus luiden: informatie die voor later van belang is nooit opslaan in Word, maar tenminste omzetten in PDF.

Foto: uit Nederland waren o.a. het Nationaal Archief, de Koninklijke Bibliotheek en de NCDD aanwezig.
(Foto's BL/JISC en DPC)

Verslagen conferentie 'Essentiële Eigenschappen'

Presentaties, verslagen en foto's van de conferentie over 'essentiële eigenschappen' zijn inmiddels verschenen bij DPConline en het Digital Curation Centre.

donderdag 10 april 2008

'Change is inevitable'


Ergens in London loopt een dief rond met een aktetas vol wijsheden over de 'significant properties' (essentiële eigenschappen) van digitale objecten - of zou het water van de Thames mijn vulpeninkt al hebben uitgewist? Wat me in elk geval is bijgebleven van de door de Engelse collega's van de Digital Preservation Coalition georganiseerde conferentie is de waarheid-als-een-koe van Andrew Wilson van de Australische nationale archieven: 'Change is inevitable'. Waar een gebedenboek uit de middeleeuwen 800 jaar lang leesbaar is gebleven, ook al is het onder slechte omstandigheden bewaard, kunnen we een Wordstarbestandje van pakweg 20 jaar geleden met de computers van vandaag al niet meer lezen.

En dát maakt digitale informatie zo totaal anders dan informatie op papier. Als we niets doen, gaat de informatie verloren. We moeten aan de bitstreams sleutelen om ze leesbaar te houden. Maar daarbij gaat ook wel eens iets mis. En de grote vraag is hoeveel er mis mag gaan voordat de informatie zijn betekenis verliest, welke 'essentiële eigenschappen' je in elk geval over moet houden. Als de layout van deze blog wordt veranderd, doet dat niets af aan de inhoud, maar als je de layout uit een tabel haalt, blijft er een onbegrijpelijke brij over.

Een deelnemer aan de conferentie suggereerde dat we er daarom maar voor moeten zorgen dat er geen bitje omvalt en alles precies bewaard blijft. Dat is een nobel streven, maar helaas ook een ontzettend duur streven. Daar gaat trouwens de volgende conferentie over die ik in London ga bijwonen: wat gaat dat allemaal kosten?

Deze trip kostte mij helaas een tas, een paspoort, autopapieren, al mijn aantekeningen en mijn favoriete vulpen. Lastig, . . . maar het bleken gelukkig geen 'essentiële eigenschappen' van me te zijn.

Van de nood een deugd maken: lente in Kensington Gardens tijdens het wachten op mijn noodpaspoort.