dinsdag 28 september 2010

Migreren of niet? The debate continues – part 3

Naar aanleiding van de blog van gisteren met David Rosenthal’s commentaar op deze blog, kreeg ik een reactie van René Voorburg, betrokken bij het project webarchivering van de KB. De reactie paste niet in het ‘reactie’-vak van de blog, dus publiceer ik hem hier graag als gastblog:

[Citaat van Rosenthal uit vorige blog:] "My statement that significant formats have not gone obsolete over the last 15 years is not a theory but a *fact*."

[Commentaar Voorburg:] That sounds like circular reasoning. Perhaps 'significant formats' are defined as formats that have not gone obsolete?

Rene Voorburg tijdens de IIPC bijeenkomst vorige week in Wenen I have some personal experience with files gone obsolete or not being able to use older files anymore. In each of these cases I seriously tried to fix the problem but didn't keep a record. So unfortunately my experiences are lacking detail and preciseness, but perhaps sharing them will be of some anecdotal value. The relevant context is that at home I used Apple Systems 7 up to 9, moved to MacOSX, then used Linux as my primary OS for about a year and then switched back to MacOSX. At work I've used anything from DOS up to Windows XP. I am a pretty knowledgeable computer user, for example experienced in various programming languages.

My experiences:

  • At a certain moment in time I discovered I couldn't open some pictures I shot years before with one of the first digital camera's, the Apple Quicktake 150. I couldn't  open them with any multiple format handling image programs (Graphic Converter, I recall).
  • The images I shot with the Quicktake 150 that I did manage to open nowadays all seem to have a faulty (or is it?) embedded color profile. Colors have become way too much saturated. I recollect the colors used to be normal.
  • I have (deleted in the meantime) some movies I wasn't able to play anymore (because they were encoded with a Sorenson-codec I didn't have access to anymore, this was on Linux). I don't know if these would have been accessible on current day MacOSX systems.
  • I've lost mails or parts of mails that were saved in a proprietary mailbox used (only!) by Microsoft Outlook for Mac when trying to migrate to another more common system (mbox).
  • I've experienced that newer versions of MS Word on Windows weren't able to open some files that were created with an older version of MS Word for Windows.
  • It is still quite common that I can't use a website because it was created for Internet Explorer which I don't (always) have access to.

Perhaps in a professional environment all these issues could have been overcome. In hindsight every solution is easy but hindsight usually means you are too late already …

René Voorburg, KB web archiving project

Deze blog houdt zich uiteraard zeer aanbevolen voor nieuwe reacties …

maandag 27 september 2010

David Rosenthal en de noodzaak van migraties - zijn eigen commentaar

Anderhalve week geleden blogde ik over de bijeenkomst kostenmodellen en de mening van David Rosenthal dat we te veel energie steken in migraties omdat nog lang niet bewezen is dat bestandsformaten inderdaad onbruikbaar worden. David is het niet eens met de manier waarop ik mijn blog besloot, en stuurde me onderstaande mail die ik verbatim opneem:

"Unless Google's translation is at fault, I want to strenuously object to a comment in this blog posting: http://digitaalduurzaam.blogspot.com/2010/09/kosten-2-koffiedikkijken-of-serieuze.html. You say (Google's translation): 'And maybe Rosenthal's theory is only useful in its own domain, e-journals, where PDF-A "rules".'

It is simply untrue that e-journal = PDF. Collecting e-journals by collecting only the PDF form destroys most of the value in the e-journal. Visit any state of the art e-journal, such as http://www.bmj.com/ and you will see that PDFs contain only a small proportion of the content of the site. Preserving PDFs is a completely inadequate strategy for preserving e-journals.

It is precisely because of this that the LOCKSS system is designed to collect *everything* published by a web-site, such as an e-journal. HTML, CSS, Javascript, GIF, JPG, WAV, MP3, video, spreadsheets, ... We collect and preserve it all.

Implying that my "theory" applies only to e-journals is a serious misrepresentation. My statement that significant formats have not gone obsolete over the last 15 years is not a theory but a *fact*. I have repeatedly challenged the digital preservation experts to come up with a counter-example, a format that was in use after 1995 and can no longer be rendered. The only example that has been put forward is a very early version of Microsoft Project - hardly a basis for an entire, expensive strategy of migration. Note that emulating a 1995 PC will still render this format. The theory is that this will continue into the future. If you argue that it will not, you need to come up with a plausible scenario by which at least one format will go obsolete. Again, no-one has put forward any such scenario.

I would ask you to correct your misrepresentation. David"

Tijdens de bijeenkomst waren er collega's die van mening waren dat bestandsformaten wel degelijk onbruikbaar worden c.q. geworden zijn. David daagt jullie uit om met bewijzen te komen. Ik stel mijn blog gaarne open voor het debat!

zondag 26 september 2010

iPRES2010(6): kan duurzaam groener?

De advertentie van de 'Concerned Researchers for a Greener Planet'
Neil Grindley van JISC had het initiatief genomen tot een paneldiscussie over het thema milieuvriendelijkheid. Hij opende het debat met de dia rechts, die naar zijn eigen zeggen wel een wat al te zwart-witte voorstelling van zaken geeft. Niettemin was zijn vraag een serieuze: met al die duurzaamheidsstrategieën (back-ups, maar ook nog meer bewaren), gebruiken we enorme hoeveelheden energie. Is dat verantwoord? Kan het met minder? Het panel dat Grindley had uitgenodigd bestond uit (vlnr) William Kilbride (DPC), Kris Negulescu (Internet Archive), Grindley zelf, en David Rosenthal (LOCKSS). Die waren het er in elk geval over eens dat elektriciteit na personeel vaak de tweede kostenpost is van digitale archivering en dat daarom alleen al gestreefd moet worden naar vermindering van het elektriciteitsgebruik. Wat Kilbride betreft moet dat vooral aan het begin van het proces gebeuren: door gedegen selectie van wat we bewaren. Het Internet Archive heeft geëxperimenteerd met het hergebruiken van de warmte die vrijkomt uit servers, maar dat experiment leverde hen niet genoeg op. Het inzetten van energiezuiniger nodes leidde tot meer storingen, en dat helpt ook niet echt. Rosenthal, die van huis uit ingenieur is, verwees naar een project dat FAWN heet. Omdat ik geen techneut ben vlnr William Kilbride, Kris Negulescu, Neil Grindley, David Rosenthalciteer ik maar even letterlijk: ‘FAWN couples low-power embedded CPUs to small amounts of local flash storage, and balances computation and I/O capabilities to enable efficient, massively parallel access to data … FAWN clusters can handle roughly 350 key-value queries per Joule of energy – two orders of magnitude more than a disk-based system.’ ‘… small-object random-access workloads are … ill-served by conventional clusters … 2 GB DIMMs consume as much energy as a 1TB disk. The power draw of these clusters is … up to 50% of the three-year total cost of owning a computer.’(David Andersen et al., ‘FAWN: a fast array of wimpy nodes’, SOSP, October 2009). (Zie ook Rosenthals eigen blog over dit onderwerp).
Kilbride gaf aan dat we ook niet moeten vergeten dat veel wetenschappelijk computergebruik voordelen oplevert voor het milieu; bijvoorbeeld in bijdragen aan klimaatonderzoek. Wat allemaal niet wegneemt dat we uit kostenoverwegingen én vanuit een algemeen verantwoordelijkheidsgevoel kritisch naar het elektriciteitsgebruik moeten blijven kijken – en dat doen we allemaal vanaf onze laptops nadat we in congreszalen die daarop niet zijn ingericht als junkies zijn afgevlogen op de schaars beschikbare verlengsnoeren ;-). In Nederland werkt o.a. het superdatacentrum van de wetenschap SARA aan energiezuinige oplossingen.
(Inmiddels ben ik weer in het land. Het semi-live bloggen was niet bij te houden, zo schreef ik jullie al eerder. Dus zal ik de komende dagen nog wat interessante zaken uit mijn aantekeningen opvissen en die jullie opdienen. Wellicht melden de andere deelnemers uit Nederland zich ook nog op deze blog. Ze zijn van harte welkom!

donderdag 23 september 2010

iPRES2010(5): samenwerken

DSC_0453 Vanochtend kwam ik bij het ontbijt (Donau-muziek, op het buffet zowel champagne als Sachertorte) een Britse collega tegen (Neil Grindley van JISC, de Engelse SURF). Ik vroeg hoe het met hem ging. Nou, het gaat nog net, zei hij. En zo voelen we ons allemaal een beetje. De iPRES zelf duurt maar 2,5 dagen, maar daar zit een netwerkprogramma bij (2 formele recepties, 1 informele wine-tasting), er gaat een dag met tutorials aan vooraf, en omdat iedereen dan ‘toch’ bij elkaar is, organiseert Janenalleman na de iPRES de nodige workshops en werkgroepbijeenkomsten … waaronder, mea culpa, ook ik ;-). ‘Greater than the sums of our parts’ heette de workshop die de vier bestaande DSC_0454 nationale coalities NCDD, DPC (UK), nestor (Du) en NDIIPP (VS) hadden bedacht toen we vorig jaar tijdens de iPRES in San Francisco voor de eerste keer samen om de tafel zaten. Blijkbaar een thema dat aansloeg, want de workshop was volgeboekt en ik verdenk zelfs enkele zwartrijders. Het werd een prima bijeenkomst, al zeg ik het zelf. De coalities stelden zich voor (NCDD, andere presentaties volgen op de website van nestor, en lieten zien dat ze toch allemaal een beetje anders in elkaar zitten, hoewel ze hetzelfde doel nastreven. Ook was er gelegenheid voor andere organisaties om zich te presenteren: de Open Planets Foundation, de Digitale DSC_0482Bibliotheek van Finland, het Zweedse expert centrum digitale duurzaamheid, Presto-Prime, de Canadezen, DANS (‘gedreven door data’ én ‘gedreven door samenwerking’ zo meldde Henk Harmsen enthousiast (foto links)), en ook de Italianen bij monde van Maurizio Lunghi (foto boven, voorgrond rechts), die nog helemaal niets nationaals hebben.
Daarna kwam de discussie. Bram van der Werf, de onlangs benoemde Directeur van de Open Planets Foundation (foto rechtsonder), gooide meteen de knuppel in het internationale hoenderhok: de Nationale Bibliotheek van Australië heeft aangekondigd eind dit jaar te stoppen met Padi, het kennisnetwerk dat vele duurzaamheidsprofessionals de afgelopen jaren heeft gediend met discussies en informatie. ‘Doodzonde’, om Padi te stoppen, vond iedereen, maar de Australiërs geven aan dat ze de benodigde formatie niet meer kunnen ophoesten. Ze moeten te veel werk zelf doen en kunnen te weinig rekenen op anderen. Dat is een bekend probleem, ook binnen de NCDD. Iedereen wil kennis hebben en vele collega’s willen het ook graag delen, maar ja, we hebben zoveel andere dingen te doen … en dan schiet bijvoorbeeld het op peil houden van websites er snel bij in.DSC_0459
Maar Nu (was een veel gehoorde frase tijdens deze iPRES), hebben we de Open Planets Foundation! Een structurele organisatie die open en internationaal is, DE ideale organisatie om alles op te pakken wat anderen laten liggen -----
Nou nee, zegt Bram vd Werf bedachtzaam (foto rechts), en terecht. De OPF is opgericht om de tools die door Planets zijn ontwikkeld te onderhouden, zodat ze niet in het niets verdwijnen, zodat de producten van Planets doorontwikkeld en onderhouden worden. De OPF wil een open organisatie zijn die ook andere tools ‘adopteert’ die kansrijk zijn. Maar de OPF is geen afvalbak voor projecten die anderen niet meer kunnen voortzetten.
DSC_0522Wie gaat het dan verzorgen, iets als Padi, een belangrijk internationaal knooppunt van kennis, zodat we niet links en rechts hetzelfde wiel moeten uitvinden? Van het  panel van vier coalities (foto links) krabt William Kilbride (DPC) eens achter zijn oor, Natascha Schumann (nestor) luistert, IA zegt dat ze met de Australiërs wil gaan praten, terwijl Martha Anderson (NDIIPP, rechts) als voorzitster het proces bewaakt. Het is duidelijk. We lossen niet alles op in een workshop. Maar dit was een mooi begin, en er is zelfs een vervolg in de maak, volgend jaar, in Tallinn, Estland, van 23-25 mei, een conferentie over afstemming tussen nationale initiatieven.
(Morgen nog een dagje IIPC – m.a.w. webarchivering; de technische sessies heb ik vanmiddag overgeslagen ten faveure van even een frisse neus halen op de Donau. Helaas bleef de boot 2 uur lang hangen in de sluizen in de Donau bij Wenen, waar een defect aan was. Frisse neus werd vooral dieseldampen …

woensdag 22 september 2010

iPRES2010(4): de politieke agenda

DSC_0111Op dag 2 van de iPRES stond de politiek op de agenda, de Europese politiek, met een keynote van Patricia Manson (links), Acting Director Directorate Digital Content and Cognitive Systems, Information Society and Media Directorate General – wat een mondvol. Van zo een keynote verwacht je niet echt schokkende nieuwe feiten, maar de EU is een belangrijke geldgever voor research voor duurzame toegankelijkheid. En een belangrijke authoriteit als het gaat om auteursrechtwetgeving, bijvoorbeeld. Reden genoeg om te luisteren - naar nog veel meer monden vol politiek jargon, vol strategie, beleid, EU directieven met lange nummers erachter (de missie van de club van Pat luidt ‘Making content accessible to all [dat is mooi], and fostering and exploiting multilingualism [ha, dat zijn de Fransen natuurlijk!]. Maar de hamvraag isDSC_0335  natuurlijk of de EU-agenda overeenkomt met de prioriteiten zoals wij die zelf ervaren, zodat wijzelf op een nieuwe ‘call for proposals’ van de commissie ook projectvoorstellen kunnen indienen die we zelf zinnig vinden. Manson noemde als prioriteit o.a. ‘scaling up’, schaalgrootte, en daar is iedereen het roerend over eens. Petabytes aan informatie kun je onmogelijk handmatig gaan controleren en bijvoorbeeld van metadata voorzien. Daar moeten geautomatiseerde workflows voor ontwikkeld worden. Ook DSC_0109noemde ze: nieuwe stakeholders bij digitale duurzaamheid betrekken, het bedrijfsleven bijvoorbeeld, omdat er uiteindelijk toch een markt moet ontstaan. En: de ‘research community’ rond digitale duurzaamheid beter structureren, beter organiseren. Daarvoor is het projectvoorstel APARSEN ingediend, een ‘centre of excellence’ vanuit het netwerk van de Alliance for Permanent Access to the Records of Science. Manson noemde als prioriteit ook ‘more radical or innovative approaches’ en gaf direct aan dat de EU wat teleurgesteld was over de respons op dit punt uit de laatste ‘call voor proposals’. Tja. Memento (zie vorige blog) is in de VS ontwikkeld … DSC_0299En misschien ook niet voor niets.Want Europese projecten zijn wel erg ingewikkeld, zo vertelde tijdens de iPRES Brian Aitken heel eerlijk. Hij was deelnemer aan de ontwikkeling van het Planets Testbed (zie blog met presentatie van Petra Helwig van 14 dec. 2009). Zoveel landen, zoveel organisaties, zoveel individuen – dan is het lastig om alle neuzen 1 kant op te krijgen, te communiceren, en om alle onderdelen goed op elkaar af te stemmen. Zeker als ‘morgen’ heel anders wordt uitgelegd dan ‘mañana’ of het equivalent in een andere taal. … Manson had het ook over continuïteit, eenmaal verkregen kennis niet verloren laten gaan, en dat is helemaal een lastig onderwerp in een projectverband met tijdelijke aanstellingen, mensen die komen en gaan. Met enige regelmaat werd tijdens de conferentie de Open Planets Foundation (OPF) als oplossing genoemd. De Open Planets Foundation is opgericht om de resultaten van het project Planets te borgen in een structurele organisatie die het vele werk onderhoudt en voortzet. Maar is de OPF sterk genoeg om al het goede werk men eraan wil uitbesteden ook echt te verzetten? Morgen maar eens aankaarten bij Executive Director Bram van der Werf, die een gastpresentatie houdt tijdens de workshop die NCDD, DPC, NDIIPP en nestor organiseren over landelijke samenwerking.

dinsdag 21 september 2010

iPRES2010(3): De Nominaties!

DSC_0178 Vandaag is er weer veel gepasseerd op de iPRES, maar het is me niet gelukt om daarvan semi-life te berichten. Te veel informatie die nog geordend moet worden in mijn brein, te veel goede gesprekken, en ten slotte ook vermoeidheid. De dagen zijn lang op zo’n conferentie. Ik beloof jullie, ik ga het allemaal inhalen. Maar nu dus even in het kort:
William Kilbride van de Engelse zusterorganisatie van de NCDD, de Digital Preservation Coalition (DPC) maakte vandaag de shortlist bekend van de nominaties voor de Digital Preservation Award 2010. En daar zitten juweeltjes tussen:
- Memento (briljant project van Herbert v.d. Sompel c.s., zie de e-data & research van deze maand)
- de Plato preservation tool van Planets (zie blog)
- Web Continuity van de UK National Archives
- de Blue Ribbon Task Force on Sustainability (zie blog)
- Preserving Virtual Words van de University of Illinois
Meer info over alle genomineerden in het persbericht van DPC hierboven. De leden van de DPC mogen komende weken stemmen. Jammer dat ik niet mee mag stemmen ...
Tot besluit enkele schamele digitale representaties van een niet te evenaren analoge werkelijkheid uit Wenen: de Prunksaal van de Nationale Bibliotheek waar we zojuist te gast waren voor de conferentiereceptie. Er staan 200.000 boeken in, van tussen 1501 en 1850. En geloof het of niet, die gaan ze de komende jaren allemaal digitaliseren – dat is mooi, maar qua belevenis zullen die het niet halen bij deze adembenemende zaal vol boeken.
DSC_0247
DSC_0263





DSC_0291

maandag 20 september 2010

iPRES2010(2): website- en emailproblemen

DSC_0082Natuurlijk had ik het antwoord op de hamvraag aan het eind van de vorige blog goed (de vraag was dan ook bijzonder retorisch): Nee. One size does not fit all. Zeker niet bij webarchivering. Aardig was dat de International Internet Preservation Coalition (IIPC, netpreserve.org) een panel had georganiseerd met vertegenwoordigers van diverse webarchiveringsinitiatieven, foto vlnr Libor Coufal (Czech NL, Nationale Bib. Tsjechië), Gina Jones (LC, Library of Congres, US), David Pearson (NLA, Nationale Bib. Australie), Clementt Ouryl (BnF, Nationale Bib. Frankrijk) en Andrea Goethals (HUL, Harvard Univ. Library, US). Die kregen eerst de vraag voorgelegd waarom ze aan webarchivering doen (zie dia).DSC_0086

Uit de antwoorden blijken de nodige verschillen: de een collectioneert selectief, de ander probeert een heel domein te archiveren; een derde doet zelfs een combinatie van de twee (Tsjechië).

Vervolgens kwam de vraag wat de diverse organisaties doen om de inhoud te bewaren. Migratie? Emulatie? Nee, daar zijn we nog niet aan toe. Websites zijn complexe objecten, waar van alles in kan zitten: text, beelden, film, audio, simulaties, enz. Op zichzelf zijn dat bestanden waar we wel iets mee kunnen, maar in combinatie, en vooral op de schaalgrootte van webarchivering, dat kunnen we nog niet aan.  Dus bewaren we allemaal  zo goed mogelijk de bits (bit-level preservation), en wachten op betere tijden. Nouja, wachten is het ook weer niet, DSC_0042natuurlijk. Met name door IIPC-partners wordt allerlei onderzoek gedaan: identificeren van bestandsformaten (essentieel voor webarchivering), de specifieke eigenschappen van websites, en mogelijke duurzaamheids-strategieën. Adam Farquhar van de British Library (links vooraan met baard) besloot de discussie op filosofische wijze: problemen die nu heel groot lijken, zijn dat over tien jaar misschien helemaal  niet meer. Voorlopig die bits maar goed bewaren, lijkt het motto.

E-mails archiveren: zakelijke én persoonlijke informatie

DSC_0076 E-mails lijken wel een beetje op websites, rapporteerde Andrea Goethals van Harvard University Library (rechts in gesprek met Maurice van den Dobbelsteen van het Nationaal Archief): e-mails zijn ook dozen van Pandora waar (in de bijlagen) van alles in kan zitten. Daar komen nog weer andere problemen bij waar ikzelf eigenlijk nog nooit bij had stilgestaan: e-mails bevatten zowel gevoelige als niet-gevoelige informatie; zowel zakelijke als persoonlijke informatie – en die laatste is onderhevig aan allerlei privacy-wetten. Harvard heeft een beleid om sommige e-mails te bewaren als onderdeel van het wetenschappelijk proces (bijv. experimenten die niet gelukt zijn), maar zag zich genoodzaakt een project op te zetten met gescheiden openbaarheids- en duurzaamheidsregimes voor de beide soorten informatie. Alsof we nog niet genoeg te doen hadden ;-).

DSC_0038 (PS: En Wenen? ‘Eine richtige Altweibersommer’, hoor ik net op het nieuws, maar binnen merk je dat niet. Wel heerlijk gebak en gepaste muziek bij het ontbijt in dit Johan Strauss hotel, waar het wachtwoord van de nauwelijks werkende wifi ‘Musikfreunde’ is. Zelf ben ik meer een fan van Gustav Mahler, die hier ook de nodige sporen heeft achtergelaten. Ik zag een aankondiging van een tentoonstelling over Mahler en Wenen, met het citaat ‘Ich bin immer ein eingefleischter Wiener geblieben’ [oid]. Misschien heb ik later in de week nog een uurtje om erachter te komen wat dat betekent. Nu eerst proberen of de wifi deze blog wil meenemen. Anders moet die wachten tot morgenochtend, want op de Technische Universität Wien werkt de wifi wel; we hebben in Physikhörsaal 1 zelfs gas, water [Laborkühlwasser en de drinkbare variant] en elektra – die met veel verlengsnoeren geschikt wordt gemaakt voor de vele laptops.)

iPRES2010 (1): de wetenschap worstelt met een overvloed aan data

ipres 041 De jaarlijkse iPRES is in Wenen van start gegaan met, helaas, een wat teleurstellende keynote van Tony Hey van Microsoft. Hij sprak over het ‘Fourth Paradigm’ in de wetenschap – wetenschap wordt nu bedreven op basis van grote hoeveelheden data (de ‘data deluge’), en dat brengt nieuwe regels, problemen en oplossingen met zich mee. Alsof we dat niet al wisten. Sommige van Hey’s dia’s stamden uit 2004, gaf hij zelf toe. Wat hij verder zei over grote hoeveelheden diverse data en de noodzaak om die aan elkaar te koppelen, had ook uit dat jaar kunnen stammen. ipres 026 Wat ik nog het aardigst vond was om te zien dat Microsoft nu participeert in allerhande projecten die technische oplossingen zoeken: Planets, SCAPE, DataCite, enz., ‘because we are closest to the problem’. Want een van de deeloplossingen van digitale duurzaamheid moet toch zijn dat we bij creatie van de gegevens automatismen inbouwen die later van nut blijken te zijn.

David Giaretta, o.a. Executive Director van de Alliance of Permanent Access, presenteerde de case studie van de European Space Agency (ESA) met de opmerking: ‘They have actually decided to put some money into it for the long term’. En dat is mooi, want tot voor kort werd alles na 10 jaar weggegooid. En daar zitten belangrijke data tussen, over temperatuurveranderingen op aarde enzo. ipres 002 Dat soort gegevens wordt door satellieten verzameld. Hoe een Europese infrastructuur voor dit soort data (met vele belanghebbenden en vele visies en vele workflows) gaat werken, liet David zien in een aantal slides dat in hoog tempo voorbij vloog. Te hoog voor mij … Dat moeten we nalezen in de proceedings, die binnenkort online komen.

Sssst, de middagsessie gaat beginnen. Preserving Web Archives: one size fits all? Georganiseerd door de IIPC. Ik denk dat ik het antwoord op de hamvraag wel kan raden, maar verheug me op het hoe.

vrijdag 17 september 2010

Kosten (2): koffiedikkijken of serieuze planning?

Volop discussies, ook in de pauzes. Achter vlnr Ernst van Velzen, Gerco Bakker en Marcel Mattheijer (BenG), Toni Tracy (Portico), Heiko Tjalsma (DANS); voorgrond rug Niels Bo Andersen (NA DK) en Ulla Bogvad Kejser (KB DK); staand voorzitter Neil Beagrie en econome Anna Palaiologk.
Soms schud ik na een bijeenkomst nog in de trein een blogpost uit mijn mouw. Dan sta ik bij wijze van spreken te trappelen om het verhaal te doen. Vandaag is een ander verhaal. Vandaag kost het me moeite om uit een berg aantekeningen en een vol hoofd de lijnen te halen waar ik jullie een plezier mee kan doen. Ik kies dus maar voor de zoetzure aanpak.
Het ideaalplaatje ziet er zo uit: een organisatie wil weten wat de kosten van duurzame opslag de komende jaren gaan worden. Ze halen een modelletje van internet, typen daar een aantal variabelen in, en voilà, daar ligt de begroting. Als de begroting niet bevalt (te duur) verander je een aantal variabelen in je beleid, net zo lang tot er een passend kostenplaatje ligt.
Zoet: na gisteren weten we wat er in de wereld te koop is aan modellen en benaderingen; zuur: geen enkel model werkt (nog) zoals we dat zouden willen.
Vlnr IA, Els van Eijck (KB), Marcel Ras (KB) Zoet: op diverse plekken bouwen verstandige collega’s aan modellen (zie vorige blog) en we hebben ze gisteren voor het eerst allemaal om één tafel gehad (bijna dan, er was 1 zieke); zuur: het zijn allemaal verschillende benaderingen die niet op elkaar aansluiten en op ieder moment weer afgebroken kunnen worden als de subsidie wordt stopgezet. Voorzichtige pogingen om te streven naar een Europese aanpak, waarbij iedereen een deel van het werk doet en je samen tot één model komt, leken gisteren nog niet vruchtbaar.
Geconcentreerde gezichten. Li Jacqueline Slats (NA), re Ulla Bogvad Kejser (KB DK) Het is dan ook ingewikkelde materie. De meeste modellen gaan uit van ‘activity-based costing’ (ABC): je benoemt welke activiteiten allemaal nodig zijn om ‘iets’ duurzaam toegankelijk te houden en je hangt er de benodigde menskracht/hardware/software aan. En als je nog een stap professioneler wil zijn, dan gebruik je de Balanced Score Card (BSC). Daarop zet je aan de ene kant je ambities als organisatie (wat wil je bereiken, in meetbare performance indicatoren) en aan de andere kant de kosten die je maakt voor diverse activiteiten. Je hoogste prioriteit mag het meeste kosten. Aan wat voor de missie van je organisatie minder of niet belangrijk is, besteed je geen geld. Die laatste stap heeft alleen een project gezet bij ons eigen data-archief DANS (Data Archiving and Networked Services), onder leiding van de Griekse econome Anna Palaiologk. (De resultaten daarvan zijn om auteursrechtelijke redenen nog onder embargo; publicatie gaat volgen). Toen Heiko Tjalsma (DANS) en Filip Boudrez (Stadsarchief Antwerpen)Anna bij de KB op bezoek ging om te kijken of het model van DANS misschien ook toegepast kon worden op de KB, bleek dat er tussen die twee instellingen zal zulke enorme verschillen waren tussen de manier van werken, de manier van organiseren, de manier van kosten toerekenen, dat er geen beginnen aan was.
En dat is in een notendop ook het verhaal van gisteren: een algemeen model is ontzettend lastig te ontwikkelen – want iedereen is anders. e-Journals zijn heel andere dingen dan archiefstukken of onderzoeksgegevens (die per discipline trouwens ook weer behoorlijk blijken te verschillen) en ze vragen om andere inspanningen en een ander beheersregime. Audiovisuele bestanden zijn weer heel anders (Beeld en Geluid), en websites zijn helemaal een duveltjeuiteendigitaaldoosje. Omdat we bovendien nog weinig echte ervaringen hebben met digitaal materiaal waarop we onze schattingen kunnen baseren, en bovendien de technologie zich razendsnel ontwikkelt, is het lastig om voorspellingen te doen, zeker voor de lange termijn. Nog niemand kan voorspellen wat het bijvoorbeeld de KB gaat kosten als ze hun 16 miljoen PDF’s moeten migreren naar een ander bestandsformaat.
David Rosenthal (LOCKSS) in gesprek met Neil Beagrie (Charles Beagrie Ltd.) De vraag is wel of dat ooit nodig zal zijn. David Rosenthal van LOCKSS heeft daarover een uitgesproken mening, reden om ook hem uit te nodigen voor de bijeenkomst. Veel instellingen migreren de diverse bestandsformaten die ze aangeboden krijgen naar een beperkt aantal bestandsformaten bij binnenkomst (Portico, Nationaal Archief Denemarken). Dat maakt het beheer gemakkelijker, en het idee is ook dat je door toekomstbestendige formaten te kiezen later veel minder vaak zult hoeven migreren. Wat op termijn kosten en moeite bespaart. Maar al die extra inspanningen bij binnenkomst (‘ingest’) maken van de ingest verreweg de duurste fase van het hele duurzaamheidstraject, zo lijkt onderzoek uit de wijzen (LOCKSS, Keeping Research Data Safe). Momenteel wordt vrij algemeen de vuistregel geaccepteerd dat de ingest 40% tot 50% van de totale kosten veroorzaakt (migreren, checken, valideren, soms metadata toevoegen). Daarna vlakken de kosten snel af. Toegang kost ca. 30% van het totaal; opslag en duurzaam beheer is dus maar zo’n 19%.
Beeld en Geluid vraagt het nog eens na bij Rosenthal: Gelooft hij nu echt dat we niet hoeven te migreren? Vlnr Marcel Mattheijer, Gerco Bakker, Rosenthal (rug) en Ernst van Velzen David Rosenthal stelt nu dat het verhaal van Jeff Rothenberg (de duurzaamheidspionier van het iconische Ensuring the Longevity of Digital Documents uit 1995) niet meer opgaat. Rothenberg maakte zich vooral druk over het in onbruik raken van bestandsformaten en propageerde de noodzaak van emuleren en migreren. Rosenthal (van huis uit techneut) is van mening dat de bestandsformaten sinds 1995 behoorlijk stabiel zijn. Er komen er weliswaar bij, maar dat leidt niet (meer) tot het in onbruik raken van bestaande formaten. Dus zegt hij: stoppen met migreren, en zeker stoppen met migreren bij binnenkomst. Want je kunt toch niet voorzien wat de klant uiteindelijk nodig zal hebben. Het is beter om gewoon de bitstreams te bewaren en een migratietool te zetten tussen het archief en de uiteindelijke gebruiker, dus aan de achterkant van het proces. Dan lever je maatwerk (origineel of migratie) op het tijdstip en het platform waar de klant om vraagt. (En bespaar je je ook nog eens de moeite om die 90% te bewerken die nooit Ingrid Dillo (KB) doet momenteel onderzoek naar de kosten van digitale opslag in verhouding tot die van fysieke opslag, hier in gesprek met Neil Beagrie opgevraagd zal worden …). Onze Deense collega’s hoorden de theorie van Rosenthal met veel belangstelling aan, maar, zo zei Anders-Bo Nielsen van het Deense Nationaal Archief, voorlopig nemen we toch het zekere voor het onzekere en blijven we bij binnenkomst migreren. Want stel nou dat Rosenthal geen gelijk heeft? De collega’s van Beeld en Geluid vroegen het nog eens na bij David Rosenthal, want audiovisuele bestanden vragen waanzinnig veel geheugen en een migratie van 12 Petabyte aan audiovisuele data (=12x1024 terabyte! = de verwachting van Beeld en Geluid voor 2014) – daar zou je zomaar een nachtmerrie over kunnen krijgen. Ook zij zijn niet zomaar bereid een nationale collectie AV materiaal in de waagschaal te stellen voor een nog onbewezen theorie. En misschien is Rosenthal’s theorie ook alleen bruikbaar in zijn eigen domein, de e-journals, waar PDF-A ‘regeert’. [NB: in een mail aan mij maakte David Rosenthal bezwaar tegen deze laatste zinsnede; zie zijn reactie.]
Blogger betrapt met vulpen door paparazzo Ingrid DilloVoorlopig zijn we er nog niet uit, dat is duidelijk. Maar het was weer een stap. Iedereen kent elkaar nu en kan gemakkelijker ervaringen en kennis uitwisselen, dat is alvast winst. Ik ga ook nog een formeel verslag schrijven van de bijeenkomst. En volgende week zetten we de gesprekken al weer voort, op de iPRES in Wenen, waar ook een sessie is gepland over kostenmodellen. Eens kijken of we daar een richting kunnen vinden om de lijnen weer aan elkaar te knopen. Tot volgende week.
Marco de Niet (DEN) en Marius Snyders (Beeld en Geluid)

woensdag 15 september 2010

De kosten van DD: koffiedikkijken of serieuze planning?


Hoe meer we allemaal digitaal werken in archieven, bibliotheken en onderzoeksorganisaties, hoe crucialer de vraag wordt wat duurzame toegankelijkheid ons gaat kosten. Hoe kunnen we goed budgetteren? Hoe kunnen organisaties meerjarenplannen maken? Hoe kunnen we tegenover subsidiegevers waarmaken wat we aan geld nodig hebben en dat we het goed besteden? Op diverse plekken in de wereld wordt onderzoek naar deze materie gedaan. In Engeland is er het LIFE-project. In Denemarken hebben medewerkers van de KB daar en het Nationaal Archief het CMDC-model ontwikkeld. In opdracht van JISC (UK) is door Beagrie et al. onderzoek gedaan naar de kosten van het langdurig toegankelijk houden van onderzoeksresultaten (Keeping Research Data Safe, KRDS). In Nederland deed met name DANS uitgebreid onderzoek naar de kosten van een data-archief.

Koffiedikkijken?
Tot op zekere hoogte is het allemaal koffiedikkijken, want het is erg lastig om de ontwikkelingen in de komende pakweg tien jaar te overzien. En ervaringscijfers om je op te baseren zijn er ook nog niet veel. Maar in die constatering kun je natuurlijk niet blijven hangen. We moeten de kosten onder controle zien te krijgen.

Alle projecten om één tafel 
Daarom ben ik er trots op dat het NCDD, DEN en KB is gelukt om morgen alle lopende projecten om
één tafel te krijgen in Den Haag. Om best practices uit te wisselen, over de diverse modellen te praten, en te bezien hoe we krachten kunnen bundelen. We hebben er geen open congres van gemaakt omdat we willen dat het een echte werkbijeenkomst wordt tussen experts uit diverse contreien.

Ik ben heel benieuwd naar morgen. Niet dat ik de illusie heb dat we het probleem van begroten 'even' zullen oplossen. Maar de krachten bundelen, ook internationaal, lijkt wel een weg te zijn waar we allemaal profijt van kunnen hebben. Ik zit morgen om 9 uur klaar met pen/laptop en camera! 

woensdag 8 september 2010

Tijdcapsule PLANETS-project zorgt voor verwarring

Gisteren gepubliceerd in edata&research: mijn kritische noot bij de tijdcapsule van het PLANETS-project.
Zie ook de wat inhoudelijker ED3blog die Ingmar Koch er eerder over schreef.

vrijdag 3 september 2010

‘Unsichere Zeiten’ voor archivarissen

'Aspecten van archiefbehoud in de 21e eeuw: duurzaam behoud of 'digital cliff'?

Het Nederlands-Duitse Archiefsymposium 2010 (Bocholt, 2-3 september) had twee jonge collega’s gevraagd om hun visie te geven op hun vak in 2050. De Nederlandse bijdrage kwam van Erik-Jan Dolfing van het Gelders Archief, die de nadruk legde op de rol van dienstverlener in de productiefase van documenten. Want als het daar fout gaat, kunnen de archieven ook niet veel beginnen. Zijn slotzin is het citeren waard: ‘Zullen er in 2050 nog archivarissen zijn? Ik hoop het. Zullen we die nog als zodanig herkennen? Ik hoop van niet.’

Dirk-Jans Duitse evenknie, Bastian Gillner uit Marburg, hield een pleidooi voor een levendiger en veel toegankelijker presentatie van de prachtige en Dirk-Jan Dolfing (l) en Bastian Gillner, de aanstormende generatie archivarissenspannende verhalen uit de archieven voor een jongere generatie – maar hij deed dat zelf in een dermate lange, talige en saaie redevoering (wel zeer doorwrocht, natuurlijk) zonder ook maar één plaatje dat ik sterk het gevoel kreeg dat hij zijn eigen advies zelf nog niet echt ter harte had genomen. De ‘knop’ was duidelijk nog niet om … De Duitse collega’s gaven zelf aan dat ze nog wat achter lopen op de Nederlanders qua digitale dienstverlening (‘Wir sind zu langsam, Unsere Verwaltungen sind zu langsam’). Dat is toch best wel weer prettig om te horen als we soms denken dat de dingen in Nederland niet hard genoeg gaan.

De eerste dag van het symposium stond verder in het teken van de e-depots. Gastheer en Bocholts stadsarchivaris Dr. Hans-D. Oppel, die eind deze maand met pensioen gaatMet een vernietigende voordracht van Dr. Florian Gläser over wat er allemaal mis gaat bij de productie van archieven. De kwaliteit van het records management neemt volgens Gläser alleen maar af, vooral waar het gaat om volledigheid.  De ‘Hybridakten’ van nu (analoog en digitaal door elkaar) zijn een aardige puinhoop over het algemeen. Gläser pleitte vooral voor een pragmatische aanpak. Streven naar perfectie leidt alleen maar tot mislukkingen. De pragmatiek stond in elk geval hoog in het vaandel van Miriam Eberlein, die een kijkje gaf in de keuken van een klein stadsarchief (Heilbronn), met 0,5 fte voor alles wat digitaal is en nul middelen voor digitale verwerking. De digitale bestanden die in het archief binnenkomen worden met kunst- en vliegwerk bijeengehouden op een computer van de gemeente – waar iedere IT’er zichzelf (als hij wil) lees- en schrijfrechten kan geven ;-(.

Hanneke van Aalst, Zeeuws Archief Onze eigen Hanneke van Aalst  (Zeeuws Archief) zoomde in op het managen van medewerkers voor wie digitale verwerking nog steeds een ver-van-mijn-bed-show is. Ze vertelde over het project om drie RHC’s aan te sluiten op het Nationaal Archief, over hoe het Gemeentearchief Rotterdam de zaak aanpakte (alle medewerkers erbij betrekken) en over de cursus web 23 die het Zeeuws Archief organiseerde voor de medewerkers en die leidde tot meer zelfvertrouwen: 'het is hetzelfde werk, maar alleen een beetje anders.’ (Hannekes lezing, met hulp van Mies Langelaar in uitstekend Duits, is in het Nederlands gepubliceerd op Hannekes blog.

Sinds ik thuis een nieuwe computer heb, ga ik helemaal 'los' met plaatjes ... En ja, ik was er natuurlijk ook niet voor niks. Op speciaal verzoek hield ik een verhaal over boeken, gedrukt en digitaal, in de 21ste eeuw: Books in the digital age: will they survive? Vooral dat gedrukte boek is natuurlijk niet echt core business momenteel, maar boeken zijn altijd interessant en de KB-omgeving (en collega’s!) boden genoeg inspiratie. De Q&A ging vooral over de digitale toekomst, webarchivering, auteursrecht van digitale publicaties. Mooi om te kunnen vertellen dat we in Nederland inmiddels zo ver zijn dat we in NCDD-verband goede afspraken maken over wie wat doet, zodat we geen dubbel werk gaan doen. We zijn onze oosterburen ook daarin een paar stappen vóór.

De files vielen mee, dus ik kon vooraf nog even over de markt struinenTen slotte nog dit: ikzelf ‘deed’ het in het Engels, mijn comfort zone, maar wat spraken mijn Nederlandse collega’s allemaal een prachtig Duits. Petje af! En die Duitse taal blijft wat hebben, daar maken ze toch schitterende woorden. Ik hoorde donderdag o.a. dat we geen ‘Insellösungen’ moeten gebruiken. En wat te denken van het ‘Mitmachweb’ (web 2.0)?

(Bij zoveel moois vergeet je dus maar dat er geen powerpoint stond op de plaatselijke computer, en dat mijn presentatie alleen gered kon worden door de laptop van Guido Houbraken – waarvoor dank, Guido!)

woensdag 1 september 2010

Een najaar vol duurzaamheid

1 September leek me een mooie datum om definitief afscheid te nemen van de komkommertijd en deze blog nieuw leven in te blazen. Want we hebben niet stil gezeten en in september gaat er weer van alles gebeuren:

  • 2 september: Bocholt, Deutsch-Niederlaendisches Archivsymposium, waar ik op speciaal verzoek een lezing houd over de toekomst van het boek - fysiek en digitaal.
  • 6 september: Den Haag, 'Kennis koppelen', brainstorm met partners uit het NCDD-circuit over hoe we informatie en kennis over digitale duurzaamheid beter kunnen ordenen en voor de sectoren toegankelijker kunnen maken.
  • 16 september: Den Haag, De NCDD organiseert samen met DEN en de KB een internationale expert meeting over de kosten van digitale duurzaamheid, 'Price tags of digital preservation policy choices'. Het is een besloten bijeenkomst, omdat we er echt een werkbijeenkomst van willen maken, maar uiteraard zal ik uitvoerig berichten over de resultaten.
  • 19-24 september: de jaarlijkse iPRES, dit keer in Wenen. Ik zal er weer uitgebreid over bloggen.
  • 23 september: 'Greater than the sum of our parts?', workshop tijdens de iPRES van de vier bekende nationale duurzaamheidscoalities (DPC, NCDD, NDIIPP en nestor) over diverse manieren van samenwerken op nationaal niveau.
  • 30 september: Vervolgoverleg bij DEN/Virtueel Platform over de vorming van een duurzaamheidscoalitie in het digitaal erfgoed.
  • 4 oktober: Heidag met het dagelijks bestuur van de NCDD om de strategische agenda handen en voeten te geven.

    En dan heb ik het nog niet eens over webarchivering en digitale survivaltechnieken voor kleinere instellingen - die volgen later in het najaar.

    Ik hoop jullie tegen te komen - fysiek of digitaal ;-)