donderdag 2 december 2010

Memento: een echt geheugen voor Internet

Herbert van de Sompel met een Memento-experiment

Ik kon het gisteravond niet nalaten om een enthousiast YES! de twitteren drie minuten nadat William Kilbride van de Engelse Digital Preservation Coalition had bekendgemaakt dat het project Memento de Digital Preservation Award 2010 had gewonnen. Van alle nominaties was Memento ook mijn favoriet. De ontwikkelaars, Herbert van de Sompel van het Los Alamos National Laboratory en Michael Nelson van Old Dominion University (met een groep collega’s natuurlijk), zijn niet de minsten: zij stonden ook aan de wieg van bijvoorbeeld het Open Archives Initiative (OAI) Metadata Harvesting Protocol (MHP) en Object Reuse and Exchange (ORE). Zij noemen Memento een tijdmachine voor het web – en dat zal ik in een kort mememto-voor-dummies proberen uit te leggen nu ik het verhaal zelf twee keer heb gehoord, één keer in het Vlaams in de KB (hij is Vlaming, en was deze zomer twee maanden lang visiting professor bij DANS), en één keer in het Engels (zie video door Herbert van de Sompel zelf en de technische specificaties, allemaal vrij beschikbaar).

Memento voor dummies

Als je een www-adres (URI) aanroept, krijg je altijd de huidige versie. Wat aan de huidige versie voorafging, is vaak overschreven of anderszins verloren gegaan. Maar voor onderzoekers kan het heel belangrijk zijn om een oude versie te kunnen oproepen. Her en der wordt aan webarchivering gedaan, maar hoe kom je als gebruiker te weten wat er is en waar je het kunt vinden? En als je je oude websites eenmaal hebt gevonden en ze bevatten een link, hoe kom je dan bij de toenmalige versie van die link en niet bij de huidige?

Als je browser met het http-protocol iets gaat opzoeken, zitten in de zoekopdracht al een aantal voorkeuren verstopt, bijvoorbeeld een voorkeurstaal, of een voorkeur voor html-pagina’s in plaats van langzame PDF’s (‘connegs’ of content negotiations). In Memento wordt een ongebruikt deel van die voorkeursinstellingen gebruikt om een datum en tijdstip mee te geven aan de zoekopdracht. Een kind kan de was doen!

Aan de kant van de server waar de website op draait kunnen twee situaties ontstaan: ofwel de server heeft zelf een archief met oude versies (bijvoorbeeld Wikipedia) of de server heeft geen eigen archief. In het eerste geval is toegang vrij gemakkelijk te realiseren. De zoekopdracht wordt naar het archief gestuurd en de versie die het dichtst bij het gevraagde tijdstip ligt wordt weergegeven. De tweede situatie is een stuk gecompliceerder. Want waar bevindt zich het archief of bevinden zich de archieven? In de Memento-logica wordt van dergelijke websites gevraagd dat ze de verzoeken waarin een tijdsbepaling zit niet in behandeling nemen maar doorsturen naar een zogenaamde ‘TimeGate’. Die kan niet alle bestaande webarchieven doorzoeken, dat zou veel te langzaam worden, maar daar zit een API (application programming interface) die de metadata verzamelt van allerlei beschikbare webarchieven en het verzoek doorstuurt naar het webarchief dat het beste antwoord heeft op de vraag.

Even elegant als briljant

Het systeem is eigenlijk heel simpel, maar dat verraadt juist het meesterschap van mensen als van de Sompel c.s. Het is niet zomaar een project maar een bruikbaar systeem dat wereldwijd kan worden ingezet en een enorme stap vooruit betekent voor de doorzoekbaarheid van Internet door de tijden heen. Een terechte winnaar dus.

http://www.mementoweb.org/guide/quick-intro/Randvoorwaarden

Het systeem kan alleen werken als aan bepaalde randvoorwaarden wordt voldaan. Iemand moet die websites archiveren. Iemand moet de metadata van een aantal webarchieven aggregeren in een TimeGate. En het liefst moet Memento een ISO-standaard worden. Wat het laatste betreft: daarover is men al druk in gesprek, want er is enthousiast gereageerd op Memento. Websites archiveren gebeurt ook steeds vaker. En het aggregeren van de metadata? Dat moeten we nog organiseren, op landelijk niveau of misschien zelfs in Europees verband. Volgend voorjaar gaan we een NCDD-conferentie over webarchivering organiseren. Dat lijkt me een goed moment om daar eens naar te kijken.

Lef en innovatie

Ik moet denken aan de presentatie van John Wood op de Europese Alliance conferentie vorige maand en zijn kritiek op hoe in Europa onderzoeksgelden worden verdeeld. Te weinig lef, te weinig innovatie, vond hij. Pat Manson van de Commissie zei tijdens de  iPRES 2010 ook zoiets, dat ze teleurgesteld was over het innovatieve gehalte van de Europese projecten in het kader van de laatste Call for Proposals. Je kunt je afvragen of het poldermodel-waar-iedereen-zijn-duit-in-het-zakje-mag-doen voor technische innovatie te langzaam is, te bureaucratisch. Ik zeg met opzet voor technische innovatie, want daar is inspiratie en creativiteit nodig. Voor organisatorische zaken zoeken we stabiliteit en draagvlak, dat heeft een andere dynamiek. Memento is misschien niet voor niets een Amerikaanse project, financieel mogelijk gemaakt door de collega’s van het National Digital Information Infrastructure and Preservation Program (NDIIPP).

woensdag 1 december 2010

Kijkje bij de (Duitse) buren

Sabine  Schrimpf (nestor): "Auf diesem Tisch liegt das ganze Wissen von nestor" ;-) Gisteren was ik in Stuttgart te gast bij de Duitse collega’s van de NCDD, nestor, Kompetenznetwerk Langzeitarchivierung, dat een landelijke duurzaamheidsdag organiseerde – met een tentoonstelling/postersessies van best practices van diverse bibliotheken, archieven en het Computerspielemuseum, presentaties over de vorderingen uit de diverse nestor-werkgroepen (Arbeitsgruppen, AG´s), en een aantal presentaties door andere organisaties die op landelijk niveau met duurzame toegankelijkheid bezig zijn. Me dunkt een gevuld programma. En er was veel belangstelling voor. Na 150 aanmeldingen moest men de inschrijving echt definitief sluiten. En toen waren de lezingen al verplaatst naar een minder ideale “foyer” op de eerste verdieping van het Hauptstaatsarchiv, met een grote vide in het midden, zodat boven lang niet iedereen kon volgen wat er gepresenteerd werd. Ik wel natuurlijk ;-), want ik ben zo iemand die altijd een plek vooraan opzoekt – zeker als ik uit praktische overwegingen alleen mijn kleine cameraatje bij me heb.

Veel belangstelling voor de 'best practices'in de tentoonstellingsruimteZoals de naam al zegt, is nestor (zonder hoofdletter!) geen coalitie zoals de NCDD (die een infrastructuur wil bouwen), maar een kennisnetwerk. Met doorwrochte rapporten - die tot voor kort nog in druk verschenen, zoals het nestor Handbuch Langzeitarchivierung 2009 (foto helemaal boven links). nestor was een project met projectgeld, maar heeft in 2009 een doorstart gemaakt als staande organisatie. Hoewel het woord ‘staand’ misschien te sterk is. Het is een los netwerkverband van organisaties die meedoen aan de werkgroepen, maar die verder geen financiële bijdrage leveren aan het geheel. Het bureau wordt gerund vanuit de Duitse nationale bibliotheek, waar de bezuinigingen ook toeslaan en de beschikbare menskracht van 1,5 fte inmiddels teruggeschroeft is naar 1 met een tijdelijke aanstelling (coördinator Natascha Schumann).

Frans Smit, van de Archiefinspectie Almere, was er ook. Uit de presentaties maak ik op dat men in Duitsland ongeveer met dezelfde vragen zit als in Nederland. Er bestaan werkgroepen media (die alleen film doet),juridische aspecten (vooral auteursrecht), preservation planning, emulatie, samenwerking & ‘Vernetzung’ (samenwerking met andere nationale organisaties) en Opleidingen. De werkgroepen komen 2 à 3 keer per jaar bij elkaar. Ze bestaan vooral uit bibliotheken en archieven. De musea laten nog weinig van zich horen. De werkgroep Opleidingen (‘Qualifizierung’) heeft inmiddels vijf keer intensieve DD-weken georganiseerd voor elke keer ca. 40 deelnemers, zo meldde Stefan Strathmann (Göttingen). Daar moeten we in Nederland ook eens naar kijken.

stuttgart 100 ’s Middags kwamen andere nationale initiatieven aan bod, zoals het Duitse standaardiseringsinstituut voor bibliotheken en informatiewetenschappen, NABD 15. Katharina Ernst van NABD sprak daar een waar woord: ‘Ingest is niet zo maar een technisch proces. Ook organisatorisch moet er veel geregeld worden om ervoor te zorgen dat de langetermijnarchieven ook echt hun werk kunnen doen.’

Opmerkelijk vond ik ook de bijdrage van AKEA, de werkgroep elektronische archivering van de organisatie van Duitse bedrijfsarchivarissen. De bedrijfsarchivaris van BMW, Rainer Heid, vertelde dat zijn werkgroep zijn best doet om duurzaamheidsbegrippen als OAIS, de nestor Kriterienkatalog en PREMIS samen te vatten en onder de aandacht van bedrijfsarchivarissen te brengen.

Als de zon eenmaal schijnt, ziet alles er wel prettig uit; Hauptstaatsarchiv Stuttgart (achtergrond) Na Bocholt in het voorjaar viel me trouwens ook hier weer op dat er in Duitsland maar weinig geïnvesteerd wordt in archivering. De accommodaties zijn oud, grote, donkere jarenzeventigblokken, met onderontwikkelde IT-structuren en slechte audio/video-faciliteiten. Voor een bijeenkomst als deze kan er nog net een kopje koffie af, maar voor de lunch ben je op jezelf aangewezen (wat dit keer overigens niet slecht uitkwam: de zon was tevoorschijn gekomen over een sneeuwbedekt Stuttgart in kerstsfeer, maar dat terzijde). In Nederland hebben we het zo slecht nog niet …

 

Het is in Stuttgart al lang Kerstmis ...

De sneeuw is authentiek, dat wel ...