Duurzame toegang (long-term access): maart 2011

zondag 20 maart 2011

Screening the Future (3): verslag (slot)

(vervolg van blog1 en blog2) -- Er waren ook bijdragen die wat minder uit de verf kwamen. Seamus Ross, die jarenlang de motor was achter veel Europese projecten, ging in op het begrip vertrouwen: hoe weten we dat een archief goed voor de data zorgt? In zijn antwoord kwam Ross niet veel verder dan de antwoorden die we al een poosje kennen: controles (audits) met behulp van gereedschappen als TRAC en Drambora. Nu is er altijd veel kritiek op TRAC, omdat het duur en zeer omslachtig is, en die kritiek klonk ook hier weer. KB-collega Barbara Sierman, zelf betrokken bij de ontwikkeling van TRAC, vindt die kritiek een beetje overdreven. Natuurlijk is zo'n audit een flinke klus, maar als je je zaken goed (lees: professioneel, zakelijk) georganiseerd hebt, dan zou de gevraagde informatie gewoon beschikbaar moeten zijn.

Ross vond overigens dat authenticiteit en integriteit wel taken van een archief zijn, maar betrouwbaarheid niet (zie ook het verslag van 'The Real Thing' uit 2010 hier en hier; Chido Houbraken zal dat met hem eens zijn). Maar, werd er gevraagd, ben je als archief dan helemaal niet verantwoordelijk voor de betrouwbaarheid van wat je binnen krijgt? Ross: Door je ingest zoveel mogelijk te automatiseren kun je de risico's wel kleiner maken, maar het blijft een lastige, vooral in dit tijdperk van digitaal mixen en mashen.

Een andere bijdrage die teleurstelde was die van Atoine Aubert van Google. Een brave opsomming van wat Google doet, en dus wat we al weten. De zaal vroeg of Google ook iets aan duurzame toegankelijkheid gaat doen, bijvoorbeeld ten aanzien van YouTube waaraan per minuut maar liefst 35 uur aan videomateriaal wordt toegevoegd. Het antwoord: iets vaags over samenwerken met publieke organisaties, te vertalen als: nee dus. Die klus zullen we als publieke organisaties moeten (blijven) klaren.

Paul Miller: 'The pieces of the puzzle are falling into place’

De linked data c.q. het semantisch web (zie voor uitleg eerdere blog) mochten niet ontbreken. Paul Miller van Cloud of Data bracht linked data in verband met de enorme hoeveelheden data waar we mee te maken hebben (presentatie). Vaak worden die beschreven als een zondvloed, een 'deluge', maar, aldus Miller, 'It doesn't have to be that way'. 'The language of catastrophe is not helpful', ging hij verder, het is beter om te denken in termen van kansen. Dat klinkt mooi, maar is het ook werkbaar? Volgens Miller wel, want er komen steeds meer tools beschikbaar die de schaal van het internet aan kunnen, en ook steeds meer opslag en rekenkracht die daarmee om kan gaan.

Het concept van het semantisch web, dat al dateert uit 2001, leek lange tijd misschien een nogal duur experiment, maar langzamerhand beginnen alle stukken van de puzzel in elkaar te vallen en kunnen we met RDF (zie eerdere blog) op grote schaal de verbindingen leggen die het web eindelijk de vorm en de diepte geven zoals de uitvinder van internet, Tim Berners-Lee, het eigenlijk heeft bedoeld. Zo ver zijn we nog niet, want in de Open Data cloud (zie eerdere blog) zijn de meeste links nog slechts eenrichtingsverkeer, maar het klinkt veelbelovend. Miller had een kanttekening bij de manier waarop veel erfgoedinstellingen de zaak tot nu toe hebben aangepakt: omdat er in de 90er jaren relatief veel geld was, zijn ze zelf dure oplossingen gaan verzinnen. Miller gelooft niet dat we die kant op moeten, want commerciële aanbieders zullen altijd veel meer geld hebben. En hij speculeerde dat we misschien de archieffunctie en de toegankelijkheidsfunctie moeten gaan scheiden om het allemaal werkbaar te houden. Dat is zeker iets om over na te denken.

Dinsdagochtend was er een masterclass over digitaliseringsworkflows die ik helaas moest missen, maar die voor deze blog ook minder interessant is. Hoewel: het viel Barbara Sierman van de KB (die de sessie wel volgde) weer eens op dat mensen die digitaliseringswerk doen vaak totaal niet nadenken bij de langetermijneffecten van de vele beslissingen die ze nemen. Daar valt nog veel te verbeteren, in de relatie tussen archieven en producenten van digitaal materiaal, het zij maar weer eens benadrukt!

Matthew Addis en Richard Wright:

'Cost, risk, loss and other fun things'

Toen iedereen al bijna moegestreden was, kwam er nog een inhoudelijke uitsmijter die er niet om loog. Richard Wright van de BBC maakte een eind aan de spraakverwarring digitalisering/digitale duurzaamheid (zie begin vorige blog) en introduceerde het PrestoCentre waar het allemaal om begonnen was. Hoewel Wright aangaf dat naar schatting 80% van al het werk in het audiovisueel domein momenteel nog zit in het omzetten van analoog materiaal naar digitaal (digitaliseren), is PrestoCentre al helemaal gericht op research & development in duurzaam beheer van audiovisueel materiaal, het echte digital preservation, maar uiteraard, en daar is PrestoCentre ook op gebaseerd, aangedreven door de noodzaak om toegang te bieden. Geen digitale duurzaamheid, dus, maar duurzame toegankelijkheid.

Wright: 'We are used to coping with losses in the audiovisual domain. We just have to learn to deal with new kinds of loss in the digital age.' De categorieën van conserveringsproblemen zijn wel hetzelfde gebleven, alleen is de invulling nu anders:

Handling, packaging and storing: in het digitale tijdperk zijn dat de fixity checks, de wrapper formats, de meegeleverde metadata, en de digitale opslag
Environmental conditions: in het digitale tijdperk zijn dat ook alle procedures, sociale en politieke factoren die een betrouwbaar digitaal archief bepalen (zie TRAC, Drambora);
Protecting the masters: ook in het digitale tijdperk heeft AV materiaal te maken met toegangskopieën om de masters te beschermen
Condition monitoring: in het digitale tijdperk is dat niet alleen controle van de fysieke opslagmedia, maar ook van de bits en de bytes, de inhoud.

Vervolgens aan Matthew Addis (IT Innovation) de eer om een soort inhoudsopgave te geven van wat PrestoCentre nu allemaal al aan informatie te bieden heeft. Op zeer relaxte toon jaagde hij er voor mijn gevoel honderden dia's door - op slideshare bleken het er 'maar' 99 te zijn. De rapporten met de details kun je vinden in de library van PrestoCentre, die op onderwerp en daarna op alfabet (is dat handig?) is georganiseerd. Voor deze blog is vooral preservation planning van belang, en voor de presentatie dit rapport van Addis en Wright. Alles speelt zich af in een driehoek kosten - risico's - kansen, die steeds weer met elkaar in balans moeten worden gebracht. Hier een paar belangrijke punten:

Over de kosten

Het is natuurlijk voor onze boekhouders en financiers gekmakend dat we nog steeds niet weten wat het allemaal gaat kosten. Ook PrestoCentre analyseerde de bekende kostenmodellen (zie ook de blog over de NCDD-bijeenkomst vorig jaar) en kwam er niet helemaal uit. We weten allemaal dat de kosten voor opslag sterk dalen, maar er zijn indicaties dat de Total Cost of Ownership (TCO – niet alleen opslag maar ook bijv. je kosten voor verwerving (ingest)) veel minder daalt dan de kosten voor opslag, en die TCO is uiteindelijk veel belangrijker. Om de kosten op termijn te kunnen beheersen, werd o.a. door PrestoCentre projectmanager Jeff Ubois verwezen naar het endowment-model: je betaalt aan het begin van de rit een vast bedrag dat in een fonds wordt gestort, waarna het onderhoud tot in lengte van jaren uit de renteopbrengsten kan worden betaald. Dat houdt de financiële verplichtingen behapbaar. Maar hoeveel zou je dan moeten storten voor eeuwigdurend databeheer? Er zijn inmiddels drie heel voorlopige schattingen, per terabyte per jaar: InternetArchive: $2.000; Princeton: $6.000; PrestoCentre: $4.000. Dit zijn natuurlijk bloedlinke cijfers waar je vele vraagtekens bij kunt zetten en die we voorlopig ook maar niet aan onze financiers moeten laten zien, maar het is een begin van theorievorming. (Overigens vindt David Rosenthal deze benadering niet realistisch, maar dat terzijde).

Over de risico's

Addis: 'No one size fits all.' Maar je kunt alleen al in je IT-beheer 37 risico's identificeren (en laten we Rosenthal niet vergeten, die op dag 1eind van blogpost nog wat ellende toevoegde). Je zou er ontmoedigd van raken, maar het is natuurlijk waar dat je er pas iets aan kunt doen als je de risico´s hebt onderkend. Dit stuk van het PrestoPrime werk zag er professioneel en gedegen uit - wie er in de praktijk mee te maken krijgt moet deze PrestoPrime tools zeker eens goed bekijken, niet alleen de problemen natuurlijk, maar ook de oplossingen; de afwegingen tussen risico's en kosten moet ieder voor zich maken. Het is natuurlijk ingewikkelde materie - en wie dat allemaal echt te moeilijk vindt, kan eens beginnen bij de vuistregels van Rosenthal op dag 1, eind van de post; daar staan al veel belangrijks in.

Aan het eind van de conferentie probeerde dagvoorzitter Bernard Smith erachter te komen of alle Grote Vragen die aan het begin van de conferentie waren gesteld ook waren beantwoord: What are we preserving? How can we fund our future? Where do AV archives meet IT? How can we valorise our archives? How will we keep our archives in good shape? Dat zijn me dunkt nogal vragen en het is daarom geen wonder dat de zaal, vermoeid en met hoofden stampvol nieuwe informatie, veel antwoorden schuldig bleef. Wat mij betreft was de belangrijkste vraag die we nader moeten oppakken is:What are we preserving? Diverse sprekers constateerden dat de traditionele instellingen en mechanismes niet zijn ingericht op wat er vanaf internet op ons af komt. Het is niet alleen veel, maar het loopt ook allemaal dwars door elkaar en veel informatie valt tussen wal en schip omdat er geen organisaties zijn die zich er verantwoordelijk voor voelen - zoals het eerder genoemde voorbeeld van YouTube. Maar er is nog zo veel meer waar we het over moeten hebben. Ook in Nederland.

De presentaties komen stuk voor stuk beschikbaar via PrestoCentre; meer foto's op flicker. Er is ook een videoregistratie voor wie alles in detail (nog eens) wil horen.

Rest bij mij de vraag hoe al die grote Europese RenD projecten zich tot elkaar verhouden. We hebben nu de Open Planets Foundation, die het werk van Planets voortzet (vooral bibliotheken en archieven), PrestoCentre, het competence netwerk dat het werk van de Prestoprojecten wil consolideren en uitbouwen (vooral AV), en we hebben sinds kort APARSEN, het network of excellence (‘kenniscentrum’ is blijkbaar een verouderde term) rond de Alliance for Permanent Access (met name bibliotheken en onderzoeksinstellingen). Natuurlijk zijn al die initiatieven in verschillende domeinen ontstaan, maar juist waar het om techniek gaat, hebben alle domeinen steeds meer te maken met dezelfde uitdagingen. AV-materiaal komt overal voor, ook bij archieven, bibliotheken en onderzoekscentra; en er zal geen domein zijn waar geen .jpegs voorkomen. Ook de kostenmodellen overlappen, en ga zo maar door. Daar moeten we het in Tallinn, tijdens de Aligning National Approaches to Digital Preservation conferentie, op 23-25 mei a.s., maar eens goed over hebben.

woensdag 16 maart 2011

Screening the Future (2): het verslag

De bijeenkomst Screening the Future 2011 was uitverkocht (zelfs overboekt, aldus Jan Müller van Beeld en Geluid in zijn openingswoord), en het ‘competence centre’ voor audiovisueel (AV) materiaal PrestoCentre is gelanceerd (zie foto in blog gisteren). Twee bomvolle dagen met goede sprekers, veel informatie en goede netwerkkansen. Voor ik verslag doe, een paar algemene indrukken.

Het audiovisueel domein

Het audiovisueel domein heeft nooit de luxe gekend van informatiedragers die jaren- of zelfs eeuwenlang meegaan en zonder machines bekeken kunnen worden. Migraties van het ene medium naar het andere zijn daarom niks nieuws, van nitraat naar acetaat, enzovoorts. Misschien dat daarom de spraakverwarring digitalisering/digitale duurzaamheid juist hier nog steeds hoogtij viert. Dat was te merken. Zelfs Commissievertegenwoordiger Javier Hernandez Ros trapte in de valkuil met zijn dia’s – en dat zal zichtbaar worden als die worden gepubliceerd op de site van PrestoCentre (link volgt). Daarom citeer ik meteen maar even Richard Wright van de BBC die het op dag 2 nog eens expliciet moest uitleggen: digitalisering is een eenmalige actie (omzetten van analoog naar digitaal), ‘digital preservation’ (duurzame toegankelijkheid) is een continu proces, een conserveringszorg ‘that never ends’.

Ook opvallend: dit is vooral een domein van mannen in pakken (het spijkerjack in de foto rechtsboven is van Mette van Essen van het Nationaal Archief). Dit is het terrein van grote instellingen als de BBC, de RAI (Italië), ORF (Oostenrijk) en INA (Frankrijk). Er heerst een zakelijke sfeer en dat merk je ook aan de aanpak van bepaalde onderwerpen, zoals risico-analyse. Dat wordt stevig en professioneel aangepakt (waarover later meer).

De VIPs: van Kranendonk en Hernandez Ros

De enige (!) vrouwelijke spreker tijdens de bijeenkomst was Judith van Kranendonk, Secretaris-Generaal Cultuur en Media bij OCW, die de VIP-openingstoespraak mocht doen – met zoals verwacht veel aandacht voor Beelden voor de Toekomst en Europeana. Ik was blij dat ze de nodige aandacht besteedde aan de enorme uitdaging om al dat moois (BenG alleen heeft al 15 petabyte) ook op lange termijn in de lucht te houden. Ze zei dat kleine instellingen soms klagen dat ze niet de middelen hebben om die klus te klaren, maar dat ook grote instellingen daarmee worstelen. Heel terecht, want daar wordt nog al eens te gemakkelijk over gedaan. EC-vertegenwoordiger Javier Hernandez Ros benadrukte ook de centrale rol van Europeana, zoals die recentelijk werd onderstreept door het rapport ‘The New Reaissance’ van het Comité des Sages, dat spreekt over een morele verplichting om erfgoed te bewaren, en dat de kosten van het digitaliseren van al het Europese erfgoed schat op een slordige 100 miljard euri. Verder toonde Hernandez Ros de overvolle slides met projecten, Framework Programmes (FPs) en miljoenen die EC-vertegenwoordigers altijd laten zien. Dan duizelt het me altijd. Want het lijkt dan allemaal heel veel, maar in de praktijk is de impact toch nog best gering. Zeker als je denkt aan die 100 miljard van het Comité des Sages.

Peter Kaufman:

‘AV takes the lead in recording our history and our culture’

Voor wie er nog aan mocht twijfelen had Peter Kaufman van Intelligent Television – Video for Culture and Education een duidelijke boodschap: de geschiedenis van deze tijd wordt vooral vastgelegd in audiovisueel materiaal. Met mooie visuele voorbeelden liet hij zien hoe onze werkelijkheid audiovisueel gestalte krijgt, gemixt en gemasht wordt. We hebben geen tijd te verliezen als we de dag van vandaag willen vastleggen en behouden voor de toekomst. Maar laat nu juist het audiovisuele domein, vooral op internet, de zwakke plek zijn van traditionele erfgoedinstellingen … ! Ook in NCDD-verband hebben we daar nog veel te weinig voortgang geboekt – we maken 18 april pas een begin met een rondetafelbijeenkomst webarchivering. Kaufman had vijf aanbevelingen voor PrestoCentre: 1) betrek het grote publiek erbij; 2) gebruik alles wat de technologie te bieden heeft; 3) zorg voor heldere afspraken ten aanzien van rechten (probeer dat zoveel mogelijk te automatiseren); 4) werk nauw samen met de producenten [dat blijft zo ontzettend belangrijk! – IA]; en 5) werk samen met de private sector [misschien is dat in Amerika iets anders dan in Europa – IA]. En ten slotte had Kaufman nog een bonusaanbeveling: ‘Work with Americans’, want die zijn praktisch. Dat laatste kan ik alleen maar beamen, het enthousiasme en pragmatisme van de Amerikanen werkte ook tijdens deze bijeenkomst weer aanstekelijk. Neem nu:

Brewster Kahle: ‘It’s Doable’

Brewster Kahle (spreek uit: keel, op z’n Nederlands) is de oprichter van het beroemde Internet Archive in San Francisco, waar niet alleen 150 miljard webpagina’s zijn verzameld en toegankelijk gemaakt met de Way Back Machine, maar ook bijna 500.000 films, 90.000 live concerten, 800.000 audio-opnames en 2,7 miljoen tekstdocumenten. Per dag komen daar 2 miljoen gebruikers op af. Dui-ze-ling-wek-ken-de aantallen. Maar juist aan die duizelingwekkenheid, die ons zo vaak overvalt als we het over duurzame archivering van internetbronnen hebben, heeft Brewster lak. Het is mooi dat het Comité des Sages heeft becijferd dat het digitaliseren van Europa 100 miljard euri zou kosten, maar, zegt Brewster, daar hebben we niks aan, dat bedrag komt er nooit. Het is veel beter om te kijken naar wat je kunt doen met de middelen die je hebt. Het Internet Archive draait op 10 à 15 miljoen dollar per jaar, op 50 vaste medewerkers en 150 mensen elders die digitaliseringswerk doen. Dat kan alleen maar als je heel creatief met je middelen omgaat. En dat kunnen ze bij het Internet Archive. Uiteraard heeft men het ook daar moeilijk met uitgevers die rechten doen gelden op hun materiaal. En dus experimenteert het Internet Archive met ‘digital lending’, zoals een bibliotheek dat zou doen. (Kahle: ‘That system has worked pretty well for a long time.’) Ook laat het Internet Archive zich betalen door bibliotheken die materiaal online willen zetten (Kahle: ‘Getting paid to give things away is a great business model’). Ook pleit Kahle voor zo veel mogelijk automatiseren én voor grootschalige samenwerking om de kosten in de hand te houden. (Kahle: ‘We need large-scale worldwide swap agreements’, hoewel: ‘Egowise it is hard to take our own stuff and bring copies elsewhere’).

David Rosenthal: ‘How Few Copies Do We Need?’

Zo’n zelfde soort enthousiast pragmatisme leidde bij de Universiteit van Stanford tot de oprichting van LOCKSS: Lots of Copies Keep Stuff Safe. Alleen de naam al. Op basis van samenwerkingsovereenkomsten brengen bibliotheken kopieën van hun materiaal onder bij elkaar om het zo te beschermen tegen de bekende digitale risico’s. Momenteel werkt LOCKSS met ca. zeven kopieën van ieder object. David Rosenthal van LOCKSS, die in deze blog al vaak genoemd is in het kader van het debat migreren-of-niet-migreren, deed voor het programma onderzoek naar risicofactoren. Extra kopieën kosten extra opslagruimte en dus extra geld. Met hoe weinig kopieën zou je toe kunnen zonder het materiaal in gevaar te brengen?

Het hele verhaal is te vinden op Davids blog, dus geef ik hier alleen de belangrijkste conclusies. De eerste is dat 100% garanties niet bestaan. Rosenthal: ‘The media is imperfect and will remain imperfect.’ Er zal hoe dan ook materiaal verloren gaan, wat je ook doet. Door meer geld in beheer c.q. kopieën te steken kun je de risico’s wel verkleinen. Na talloze berekeningen (zie zijn blog), kon David nog steeds geen exacte verhoudingen geven tussen risico’s en kosten. Maar wel kwam hij tot een aantal vuistregels, waarbij de eerste het meeste effect zal hebben en de laatste het minste:

Hoe meer kopieën, hoe veiliger
Hoe minder verband tussen de kopieën, hoe veiliger
Hoe betrouwbaarder de kopieën, hoe veiliger
Hoe sneller fouten worden opgespoord en verholpen, hoe veiliger
Hoe minder compressie, hoe kleiner eventuele schade.

Rosenthal had het ook over de risico’s die data lopen, en gaf een mooie vergelijking tussen wat de meeste mensen denken, en wat de ervaring is van grote datacentra (Davids blog). Wat men denkt: media onbruikbaar; hardware onbruikbaar; software onbruikbaar; netwerkproblemen; veroudering van soft- en hardware; natuurrampen. Wat de ervaring is van grote datacentra: fouten door medewerkers; aanvallen van buiten; aanvallen van binnen uit; gebrek aan middelen (geld, mensen); organisatorische problemen (organisatie houdt op te bestaan, etc.).

Me dunkt genoeg voer om even over na te denken. Wordt vervolgd in de volgende blog.

maandag 14 maart 2011

Screening the future (1): de nulblog

Vandaag dag 1 van ‘Screening the future’, de conferentie bij gelegenheid van de lancering van het Europese ‘competence centre’ voor audiovisueel materiaal, PrestoCentre, bij Beeld en Geluid in Hilversum. Hier de lancering van PrestoCentre; morgen volgt het verslag.

Jan Müller, Beeld en Geluid (tweede van rechts), bij de lancering van PrestoCentre: ‘I am known as an access guy, but I am also a preservation guy, and I am proud of it.’