donderdag 22 mei 2008

De kosten van digitale duurzaamheid (II)


Onlangs verscheen het JISC-rapport Keeping research data safe: a cost model and guidance for UK universities, door Neil Beagrie, Julia Chruszcz en Brian Lavoie. Het is erg toegespitst op de Engelse situatie, en Beagrie schrijft zelf verontschuldigend dat het met drie case studies niet al te breed van opzet is (zodat diverse Aanbevelingen vragen om Meer Onderzoek), maar de lijst met activiteiten waar het management van een digitaal archief rekening mee moet houden ziet er gedegen uit, als ook de lijst met afhankelijkheden die de kostprijs mede bepalen. Vooraf goed nadenken over wat je precies wilt bewaren, voor hoe lang en voor wie (de welbekende OAIS ‘designated community’) is de sleutel. Achteraf materiaal deselecteren of bestanden repareren is erg duur en af te raden.

Andere (voorlopige) conclusies:
- De kosten voor het opslaan van onderzoeksgegevens zijn veel hoger dan voor publicaties, want de bestanden zijn gevarieerder en complexer van aard. Bovendien heb je waarschijnlijk te maken met een diverse (= bewerkelijke) groep aanbieders.
- Meer dan 70% van de kosten gaat zitten in arbeidsloon.
- De meeste kosten worden aan het begin gemaakt. Een schatting: acquisitie en ingest ca. 42%, archiveren en duurzaamheidsacties ca. 23% en toegang 35%.
- Schaalgrootte leidt tot kostenvermindering. Grofweg: 600% meer volume leidde tot 300% meer kosten.
- De diverse takken van wetenschap hebben heel verschillende manieren om data te gebruiken en te hergebruiken. Daarom moet er zoveel mogelijk worden opgeslagen in nationale of internationale discipline-georiënteerde archieven.

Een interessante toegevoegde case study is die van de Archaeological Data Service (p. 87-94), die inmiddels tien jaar ervaring heeft opgedaan met digitale archivering tegen vergoeding. Anders dan bijvoorbeeld bij DANS in Nederland betaalt de organisatie die het onderzoek financiert een eenmalige bijdrage aan de ADS voor opname van de onderzoeksdata, waarna die duurzaam worden opgeslagen en vrij beschikbaar zijn voor hergebruik.Op de ADS-website staat het charging model. De aanloopkosten voor de ingest worden berekend in mandagen; daarna geldt een archief-vergoeding van ₤0,50 per Mb.
Ervaring bij de ADS doet vermoeden dat de apparatuur voor archivering eens in de vijf jaar moet worden vervangen. Diezelfde ADS becijfert op basis van een aantal inschattingen dat de kosten voor duurzame archivering inclusief migraties na 20 jaar nog slechts minimaal zullen zijn, omdat men verwacht dat de systemen steeds slimmer zullen worden en opslagmedia goedkoper. Daar staat dan wel weer tegenover dat het arbeidsloon flink zal stijgen (p. 91).

vrijdag 16 mei 2008

Wat is een 'goede' archief-PDF?


De Koninklijke Bibliotheek heeft onlangs onderzoek gedaan naar conversietools die MS Office-documenten kunnen omzetten in het veel duurzamere PDF-archiefformaat (kortweg: PDF/a). Een testbestand werd met behulp van verschillende tools geconverteerd en het resultaatbestand werd beoordeeld op inhoud, uiterlijk en structuur. Daarbij bleek dat geen van de tools een bestand kan opleveren dat valide is, d.w.z. dat voldoet aan de officiële grammaticaregels van PDF/a. Betekent dit dat de resultaten onbruikbaar zijn?
Zo zwart-wit ligt het allemaal niet, legt onderzoeker Wouter Kool uit. Weliswaar geeft een valide PDF/a waarschijnlijk de beste langetermijnresultaten, maar het is niet gezegd dat een bestand dat maar voor 90% voldoet aan die eis door de mand zal vallen in een elektronisch archief. Dat moet de toekomst nog uitwijzen. Bovendien hangt het er maar van af waar wat je belangrijk vindt. Over de hele linie kwam de MSOffice add-in als beste uit de bus, met PdfMaker van Adobe als goede tweede. OpenOffice doet het goed als je wel belang hecht aan structuur, maar minder aan uiterlijk. Printerdriver tools doen net weer het omgekeerde.