woensdag 7 oktober 2009

IIPC (1): hoe zorgen we voor duurzame toegang tot informatie op internet?

De International Internet Preservation Consortium is de organisator van een bijeenkomst (wederom hier in zonnig San Francisco) getiteld 'Active solutions for preserving internet content'. Ik ben hier aangeschoven omdat ik nog te weinig van dit onderwerp weet. Dus reken op elementaire informatie in deze blog ;-). Het probleem is duidelijk: er is zo veel aanbod, het is zo divers, het is allemaal dynamisch, verandert met de dag, begint en verdwijnt weer. Wat moeten we daarvan bewaren en hoe gaan we dat aanpakken?

DSC_0480 Brewster Kahle van het Internet Archive. De toon wordt (om half negen!) gezet door Brewster Kahle van het Internet Archive: ja, er gebeurt van alles sinds de IIPC in 2003 werd opgericht, maar: we moeten nog veel meer doen - en om die boodschap kracht bij te zetten gebruikt Kahle zijn hele lichaam (foto). Het Internet Archive is in 1996 begonnen met het archiveren van "snapshots" van websites om de twee maanden. Dat is een oppervlakkige manier van oogsten: het zichtbare plaatje, zonder alle links waar naar verwezen wordt te volgen. Er zitten nu 150 miljard pagina's in het archief en er komen er nu iedere maand 4 miljard bij. Mijn hemel! Kahle benadrukt hoeveel stroom dat allemaal kost. Daar denken we niet altijd bij na ;-).

Kahle propageert het maken van kopieën en die elders (en in verschillende systemen) onderbrengen als belangrijkste duurzaamheidsstrategie - net als de meesten gisteren tijdens de iPRES. Maar verder gaat het vooral om de missie om 'universal access to all knowledge' te bewerkstelligen - en de rol die uitgevers, bibliotheken en het internet daarin hebben. Dat is een apart verhaal.

DSC_0490 Library of Congress: 'Billions and billions of objects, METS, PREMIS, oh my!' - Gina Jones. Het gevoel dat in deze titel zit, is denk ik heel herkenbaar. De Library of Congress heeft gekozen voor het archiveren van een aantal thematische collecties, zoals in Nederland de KB nu ook doet. Alle 124 TB is volledig beschikbaar via de website. Er worden MODS metadata aan gehangen, en de catalogiseerders van de LoC voegen LoC subject headings toe. Het 'crawlen' wordt verzorgd door het Internet Archive. Sinds 2007 verzorgt het Internet Archive ook een back-upfunctie. Voor het transporteren van data gebruikt de LoC de BagIt-tool, die de California Digital Library (met steun van NDIIPP) heeft ontwikkeld. Er zijn ook onbeantwoorde vragen: welk deel van dit archief moet de LoC echt duurzaam gaan bewaren? En hoe moet men dat gaan doen, via emulatie of migratie? Wat voor metadata is ervoor nodig om de inhoud ook over 10 of 20 jaar begrijpelijk te houden? (ps: Jones zegt verder niks over METS of PREMIS, zoals de titel had beloofd ...).

WARC format and beyond (John Kunze, California Digital Library; met input van afwezige Mark Middleton, Hanzo Archives Ltd (een commerciële aanbieder van webarchiefdiensten voor bedrijven in de VS); Clément Oury, Bibliothèque nationale de France). WARC = ISO 28500 = Web ARChive file format; ontwikkeld door IIPC, opvolger van het ARC file format. WARC = "a sequence of content blocks, each preceded by a small text header; allows easy recording of content blocks; WARC supports related content blocks (wat ARC niet kon)." Voor de liefhebbers is hier de uitgebreide website. Wanneer je websites binnenhaalt ('crawlt'), zo leer ik, krijg je enorme hoeveelheden kleine files, en dat kan nogal irritant zijn. DSC_0499Met WARC kun je files clusteren tot grotere eenheden die gemakkelijker te managen zijn ('blikken' informatie, zie illustratie). Middleton vertelt (via John Kunze) over een aantal gereedschappen die zijn ontwikkeld om met WARC te werken en om oude ARC- files om te zetten in WARC. Alles is open source en beschikbaar via http://code.google.com/p/warc-tools. Oury en collega's onderzochten het gebruik van WARC. Iedereen was enthousiast toen de standaard op de markt kwam, dus waarom heeft nog bijna niemand hem inmiddels geïmplementeerd? WARC blijkt toch best wel complexer te zijn dan ARC was. Je kunt er ook meer mee, maar dat heeft een prijs. Instellingen ervaren de transitie ook een beetje als een sprong in het duister: hoeveel tijd en inspanning gaat het kosten? Dus heeft de IIPC een task force gevormd om richtlijnen voor de implementatie te formuleren.

DSC_0474

PS: live blog met dank aan mijn achterbuurman James Jacobs van Stanford University Library, die internationale vriendschappen sluit door met grote blokken stopcontacten op conferenties te verschijnen; zelfs mijn enorme internationale stekker (in wit op de voorgrond), die gisteren en eergisteren  niet op de zaalstopcontacten paste, mag zich laven aan de geboden vriendelijke energie!

1 opmerking:

Ingmar zei

Het is toch typisch dat bij zulke grote, digitale congressen, zo weinig stopcontacten beschikbaar zijn!
(Overigens, bij de NCDD-dag vorige maand was in de grote zaal ook geen stroom beschikbaar...)
Dat idee van James Jacobs om een haspel mee te nemen moet ik onthouden. Lijkt me inderdaad goed voor de contacten.
Veel plezier nog...