donderdag 2 december 2010

Memento: een echt geheugen voor Internet

Herbert van de Sompel met een Memento-experiment

Ik kon het gisteravond niet nalaten om een enthousiast YES! de twitteren drie minuten nadat William Kilbride van de Engelse Digital Preservation Coalition had bekendgemaakt dat het project Memento de Digital Preservation Award 2010 had gewonnen. Van alle nominaties was Memento ook mijn favoriet. De ontwikkelaars, Herbert van de Sompel van het Los Alamos National Laboratory en Michael Nelson van Old Dominion University (met een groep collega’s natuurlijk), zijn niet de minsten: zij stonden ook aan de wieg van bijvoorbeeld het Open Archives Initiative (OAI) Metadata Harvesting Protocol (MHP) en Object Reuse and Exchange (ORE). Zij noemen Memento een tijdmachine voor het web – en dat zal ik in een kort mememto-voor-dummies proberen uit te leggen nu ik het verhaal zelf twee keer heb gehoord, één keer in het Vlaams in de KB (hij is Vlaming, en was deze zomer twee maanden lang visiting professor bij DANS), en één keer in het Engels (zie video door Herbert van de Sompel zelf en de technische specificaties, allemaal vrij beschikbaar).

Memento voor dummies

Als je een www-adres (URI) aanroept, krijg je altijd de huidige versie. Wat aan de huidige versie voorafging, is vaak overschreven of anderszins verloren gegaan. Maar voor onderzoekers kan het heel belangrijk zijn om een oude versie te kunnen oproepen. Her en der wordt aan webarchivering gedaan, maar hoe kom je als gebruiker te weten wat er is en waar je het kunt vinden? En als je je oude websites eenmaal hebt gevonden en ze bevatten een link, hoe kom je dan bij de toenmalige versie van die link en niet bij de huidige?

Als je browser met het http-protocol iets gaat opzoeken, zitten in de zoekopdracht al een aantal voorkeuren verstopt, bijvoorbeeld een voorkeurstaal, of een voorkeur voor html-pagina’s in plaats van langzame PDF’s (‘connegs’ of content negotiations). In Memento wordt een ongebruikt deel van die voorkeursinstellingen gebruikt om een datum en tijdstip mee te geven aan de zoekopdracht. Een kind kan de was doen!

Aan de kant van de server waar de website op draait kunnen twee situaties ontstaan: ofwel de server heeft zelf een archief met oude versies (bijvoorbeeld Wikipedia) of de server heeft geen eigen archief. In het eerste geval is toegang vrij gemakkelijk te realiseren. De zoekopdracht wordt naar het archief gestuurd en de versie die het dichtst bij het gevraagde tijdstip ligt wordt weergegeven. De tweede situatie is een stuk gecompliceerder. Want waar bevindt zich het archief of bevinden zich de archieven? In de Memento-logica wordt van dergelijke websites gevraagd dat ze de verzoeken waarin een tijdsbepaling zit niet in behandeling nemen maar doorsturen naar een zogenaamde ‘TimeGate’. Die kan niet alle bestaande webarchieven doorzoeken, dat zou veel te langzaam worden, maar daar zit een API (application programming interface) die de metadata verzamelt van allerlei beschikbare webarchieven en het verzoek doorstuurt naar het webarchief dat het beste antwoord heeft op de vraag.

Even elegant als briljant

Het systeem is eigenlijk heel simpel, maar dat verraadt juist het meesterschap van mensen als van de Sompel c.s. Het is niet zomaar een project maar een bruikbaar systeem dat wereldwijd kan worden ingezet en een enorme stap vooruit betekent voor de doorzoekbaarheid van Internet door de tijden heen. Een terechte winnaar dus.

http://www.mementoweb.org/guide/quick-intro/Randvoorwaarden

Het systeem kan alleen werken als aan bepaalde randvoorwaarden wordt voldaan. Iemand moet die websites archiveren. Iemand moet de metadata van een aantal webarchieven aggregeren in een TimeGate. En het liefst moet Memento een ISO-standaard worden. Wat het laatste betreft: daarover is men al druk in gesprek, want er is enthousiast gereageerd op Memento. Websites archiveren gebeurt ook steeds vaker. En het aggregeren van de metadata? Dat moeten we nog organiseren, op landelijk niveau of misschien zelfs in Europees verband. Volgend voorjaar gaan we een NCDD-conferentie over webarchivering organiseren. Dat lijkt me een goed moment om daar eens naar te kijken.

Lef en innovatie

Ik moet denken aan de presentatie van John Wood op de Europese Alliance conferentie vorige maand en zijn kritiek op hoe in Europa onderzoeksgelden worden verdeeld. Te weinig lef, te weinig innovatie, vond hij. Pat Manson van de Commissie zei tijdens de  iPRES 2010 ook zoiets, dat ze teleurgesteld was over het innovatieve gehalte van de Europese projecten in het kader van de laatste Call for Proposals. Je kunt je afvragen of het poldermodel-waar-iedereen-zijn-duit-in-het-zakje-mag-doen voor technische innovatie te langzaam is, te bureaucratisch. Ik zeg met opzet voor technische innovatie, want daar is inspiratie en creativiteit nodig. Voor organisatorische zaken zoeken we stabiliteit en draagvlak, dat heeft een andere dynamiek. Memento is misschien niet voor niets een Amerikaanse project, financieel mogelijk gemaakt door de collega’s van het National Digital Information Infrastructure and Preservation Program (NDIIPP).

Geen opmerkingen: