zondag 26 april 2009

Duurzaamheid in Vlaanderen

brusselZo mooi lag de Brusselse Grand Place erbij afgelopen vrijdag: strakblauwe lucht, onwaarschijnlijk mooie - duurzaam bewaarde! - barokke gevels, volle terrassen en de geur van Vlaamse frieten en Brusselse wafels.

En toch kwam een veertigtal vertegenwoordigers van Vlaamse culturele en wetenschappelijke instellingen bij het Brusselse FARO luisteren naar twee Nederlanders die op verzoek van het Vlaamse BOM-VL (Bewaring en ontsluiting van multimedia) kwamen vertellen over samenwerking in digitale duurzaamheid in Nederland: Peter Doorn over DANS en DARIAH en ikzelf over de NCDD. En naar een landgenote (Inge van Nieuwerburgh, Gent) die over DRIVER kwam vertellen.

Afbeelding 006

Een aantal organisaties is in Vlaanderen zeer actief, waaronder het Antwerpse archief met het eDavid kenniscentrum (zie blog), maar daarbuiten is duurzame toegang veel minder een aandachtspunt dan in Nederland. Samenwerken ligt in België sowieso een stukje lastiger dan in Nederland, met Vlaamse, Waalse en federale overheden.

De paneldiscussie ging al gauw over technische samenwerking, de korrelgrootte die metadata moeten hebben om verschillende gebruikersgroepen te bedienen. Daar geldt helaas: 'one size does not fit all', en hangt het af van de gebruikersgroepen ('designated community' in OAIS-taal) van instellingen welke keuzes men maakt: fijnmazig voor een klein publiek of grofmazig voor een groot publiek.

Inge Schoups van het Antwerpse archief gaf aan dat het bouwen van een technische infrastructuur mensen al vaak afschrikt, maar dat de ervaring van Antwerpen leert dat het slechten van organisatorische muren misschien nog wel meer moeite kost. Bart de Nil van FARO verwees naar het OCLC rapport 'Beyond the silos of the LAMs [wat een prachtige titel, trouwens]: collaboration between libraries, archives and museums', waarin een soort continuum wordt geschetst dat intersectorale samenwerking in stappen steeds dichterbij brengt.

Toen ikzelf de doelstelling van de NCDD (een infrastructuur voor duurzame toegang bouwen in Nederland binnen een termijn van een jaar of vijf) weer eens op het scherm zag staan, bekroop niet alleen mij, maar zo bleek later, ook Peter Doorn het gevoel dat we die doelstelling toch misschien wat moeten bijstellen. Financieel hebben we het tij tegen, het Ministerie heeft al laten weten dat er zeker voor 2010 geen extra geld beschikbaar komt. Afbeelding 004

Daarbij komt dat de ervaring leert dat het smeden van samenwerking tijd kost; zeker tussen sectoren die niet gewend zijn om samen te werken en soms zelfs een traditie van wantrouwen hebben. Natuurlijk is een bibliotheek ook een andere tak van sport dan een archief, maar ik ben er zo langzamerhand van overtuigd geraakt dat het digitale tijdperk de sectoren dichter bij elkaar brengt qua uitdagingen en hopelijk ook qua oplossingen. Neem bijvoorbeeld een thema als 'authenticiteit' van gegevens, dat vooral bij archieven speelde omdat de authenticiteit van een boek niet zo gauw in twijfel wordt getrokken. Maar met digitale bestanden, ook wetenschappelijke, wordt authenticiteit wel degelijk een issue en kunnen andere sectoren leren van de ervaring die archieven er al mee hebben - ook al is iedere situatie net weer een beetje anders.

In de trein terug naar huis bedacht ik dat ik het zo had kunnen zeggen: met respect voor ieders eigenheden toch eerst het gemeenschappelijke zo veel mogelijk uitbuiten -- maar die verwoording kwam pas op het moment dat een Nederlandse conducteur ons in vier talen probeerde te vertellen dat de trein vanwege veiligheidsproblemen helaas in Antwerpen 'aufgehoben' zou worden. Maar wie maalt daarom als je in aangenaam gezelschap verkeert en exquise Belgische bonbons ten geschenke hebt gekregen. Laten we dus vooral niet vergeten om, bijvoorbeeld op het terrein van kennisdeling en opleiding, de Vlaams-Nederlandse samenwerking uit te proberen.

Foto's: boven Grand Place Brussel; Peter Doorn maakte de foto's van het publiek en uw verslaggever.

woensdag 22 april 2009

De bits en de bytes van het archief: zelf opslaan of uitbesteden?

DSC_0134 Het opzetten van een 'rekencentrum' voor de opslag van digitale bits en bytes kost tussen de 1,2 en 1,6 miljoen euri - en dan heb je alleen nog de basisfaciliteiten: een ruimte, airco, servers, racks, lijnen naar buiten en personeel om dat in de lucht te houden. Ingest, normalisatie, ontsluiting, migratie/emulatie enz enz komt daar allemaal nog bij.

Hoewel het zeker niet uitgesloten is dat dit allemaal goedkoper zal worden in de toekomst, betekenen deze bedragen op dit moment dat voor veel kleine archieven het opzetten van een eigen digitaal depot niet is weggelegd. Wat moet je dan? Niets doen, afwachten? Of denken aan uitbesteden?

Rond deze thematiek organiseerde het Gemeentearchief Rotterdam gisteren een expert meeting. Aan tafel zat een stevige vertegenwoordiging uit het veld: de grote stadsarchieven, inspecties, LOPAI, het NA, DEN, enkele leveranciers, en deskundigen van de UvA en HvA. Voor mij uiteraard een prachtige gelegenheid om nog meer informatie te verzamelen voor de Nationale Verkenning Digitale Duurzaamheid.

In een drietal subgroepen werden de juridische, organisatorische en technische aspecten van uitbesteden onder de loep genomen.

DSC_0120 De wet heeft geen enkel bezwaar tegen uitbesteden, zo concludeerden de juridische experts, zolang het bij technisch beheer blijft. Binnen- of buitenland maakt ook niets uit. Zolang de archivaris maar het intellectueel beheer kan uitoefenen.

En daar komt nogal wat bij kijken. Welke service providers kun je vertrouwen? In hoeverre kun je kwaliteit afdwingen door middel van doortimmerde contracten en in hoeverre is het toch ook een kwestie van vertrouwen hebben in een partner? Iedereen was ervan overtuigd dat het uitbestedende archief in elk geval flink wat kennis in huis moet hebben om de dienstverlener aan te sturen, niet alleen om de contracten af te sluiten maar ook vooral om 'erboven te kunnen hangen', te kunnen controleren of de afspraken ook nagekomen worden. Peter Horsman (voormalige Archiefschool) suggereerde om dergelijke expertise onder te brengen in een landelijk servicecentrum waar alle archieven een beroep op kunnen doen, maar die suggestie overtuigde de deelnemers niet meteen. Je moet toch ook zelf kunnen controleren of het goed gaat, vanuit je verantwoordelijkheid als archivaris, was de redenering. Authenticiteit, veiligheid, dat zijn allemaal kerntaken van de archivaris.

Marco de Niet van DEN suggereerde dat organisaties nog te weinig gebrDSC_0125uik maken van elkaars kennis en ervaring, nog veel te vaak zelf het wiel proberen uit te vinden. Hij verwees daarbij naar de KB die inmiddels 10 jaar ervaring heeft. Gebruik die ervaring, was zijn advies.

Maar dan komen ook weer al die minder 'harde' factoren bovendrijven die samenwerking soms in de weg staan, zeg maar de eeuwige rivaliteit Ajax-Feyenoord in al zijn vormen. Zou een Rotterdams Gemeentebestuur accepteren dat de gegevens in Amsterdam staan? Eric Ketelaar suggereerde dat te veel uitbesteden misschien ten koste kan gaan van de positionering van het archief. Maar uitbesteden hoeft natuurlijk aan de voorkant helemaal niet zichtbaar te zijn: het interesseert de eindgebruiker niet waar de data vandaan komen die hij op de website van het Rotterdamse Gemeentearchief vindt. Het GAR is en blijft voor hem de ingang en de leverancier.

Ik zag in de bijeenkomst een duidelijk stukje ontwikkeling: waar een poosje geleden nog nadrukkelijk werd gesproken over de noodzaak om je materiaal in eigen huis op te slaan, werd uitbesteden nu als een zeer acceptabele oplossing gezien. Ook organisaties als de Koninklijke Bibliotheek en het Nationaal Archief voorzien dat ze op termijn hun bits en bytes elders gaan onderbrengen. Maar gedegen kennis in de eigen organisatie blijft een vitale voorwaarde om dit soort processen in goede banen te kunnen leiden, daarvan is iedereen overtuigd.

DSC_0142

Ten slotte nog een compliment aan het GAR, dat van meet af aan veel energie heeft gestoken in het delen van zijn kennis en ervaringen met andere archieven. Ook deze bijeenkomst was daar weer een prima voorbeeld van. Jantje Steenhuis (links) en Josje Everse blijven artikel 9 van de beroepscode van archivarissen (kennisdeling) hooghouden, en ook de altijd zo leerzame nazit is bij hen in goede handen, zoals de foto links duidelijk laat zien.

Zie ook het verslag van Ingmar Koch op de blog van ED3, http://eisenduurzaamdigitaaldepot.blogspot.com/2009/04/kun-je-je-digitaal-archief-uitbesteden.html

maandag 20 april 2009

Curating research (2): wie zorgt er het beste voor onderzoeksdata?

Tijdens de conferentie afgelopen vrijdag ontspon zich een aardige discussie over welk soort organisatie nu het beste in staat is om te zorgen voor de duurzame toegang tot digitale researchdata. Een aantal bibliotheken ziet daarin een nieuwe rol, getuige de lezing van Maria Heijne uit Delft over het 3TU.datacentrum in oprichting. Want juist bibliotheken hebben datamanagementkennis in huis.

Maar, zo bracht een wetenschapper van het Max Planck Instituut (Nijmegen) in, die redenering klopt niet, want de datamanagementsystemen van bibliotheken kun je niet zo maar kopiëren naar de wetenschap. Alleen wetenschappers zelf kunnen die datasystemen bedenken die bij hun discipline passen. Dat hebben ze dan ook gedaan in veel disciplines.

Maar daar ontbreekt het vaak weer aan de broodnodige continuïteit, ook qua financiering. Menige promovendus laat na zijn afstuderen zijn bestanden in voor anderen onbegrijpelijke toestand achter. Juist bibliotheken bieden weer een beter langetermijnperspectief (zo schreef ikzelf onlangs in LIBER Quarterly).

En data-archieven als DANS? Die kunnen goed werken voor statische bestanden, zo betoogde een onderzoeker, maar de wetenschap zelf is c.q. wordt steeds dynamischer. Voor dat soort bestanden heeft DANS nog geen oplossingen. We komen hier op het gecompliceerde terrein van het records continuüm - dataverzamelingen waarop gelijktijdig verschillende (juridische & organisatorische) regimes van toepassing zijn.

Duidelijk is wel dat bibliotheken of datacentra die onderzoeksdata duurzaam toegankelijk willen gaan maken zeer nauwe samenwerking moeten zoeken met de onderzoekers waarmee en waarvoor ze werken. Want de eisen kunnen per discipline, soms zelfs per onderzoeksteam verschillen - en het kan nooit de bedoeling zijn dat de eisen van duurzame data-opslag de creativiteit van het onderzoek zelf gaan belemmeren.

zaterdag 18 april 2009

Curating research (1): wrap up / samenvatting

Hieronder de eerste impressies die ik tijdens de Curating Research conferentie van gisteren in Den Haag opdeed en als 'wrap-up' aan het slot presenteerde; voor één keer in het Engels. Zie ook de blog hiervoor.

First impressions as I presented them yesterday to the conference Curating Research (The Hague, 17 April 2009) during the final session.

A long, long time ago … that is: early this morninDSC_0009g, the organisers started us out on a very ambitious agenda, I quote Hans Jansen (opening speaker, KB): ‘At the end of the day you will be able to assess the preconditions for implementing long-term preservation in your own organisation – both in terms of policy, technical infrastructure and organisational development.’

So, I ask you, audience: ARE YOU?

[as the room remains quite silent ...]

Perhaps a few highlights will help you answer that question.

DSC_0014 Eileen Fenton (Portico, a US digital archive) painted a very clear general picture of the digital curation landscape: digital information is exploding; we need to manage that information to safekeep it for future generations. And preservation is only a means to the all important end of access.

How do we do it? Well, permanent access does not happen by accident. It takes work, work we still have many uncertainties about, as this is a new field. One thing Eileen told us right away: one size does not fit all, this game is complex.

Eileen had some notable advice for librarians: befriend selection, and get close to the creators of the content. They make critical decisions when it comes to keeping research information accessible in the long term.

Her last, and I think very important point: ‘do not go at this game alone’. Find yourself trusted partners to work with, nationally or internationally.

DSC_0022 Jeffrey van der Hoeven and Tom Kuipers (KB) presented their PARSE.insight project which surveyed how the LIBER libraries deal with digital preservation. To my mind an important outcome of their survey was the low response rate: out of 400 institutions, only 59 completed the questionnaire. What does this say about the current position of research libraries? They are to some degree aware of the issues, but are hesitant to get involved. Perhaps because the issues are too daunting? Or because others should take on the task?

Dale Peters (Göttingen, DRIVER project) reviewed the many European research projects which are under way to tackle the more technical aspects of digital preservation. Although these do assure research libraries that many technical issues are being dealt with on an international scale, I must admit that the quantity and variety of acronyms in this field sometimes overwhelms me. Fortunately, all of them have websites to which you can refer for more detailed information. And if you cannot find your way, send an e-mail to Dale and she will no doubt help you along.

Dale stressed two important points:

a) that we need to do work on linking all the digital information that is out there to serve our clients. I am sure nobody in the room disagrees with that!

b) Also, Dale mentioned – almost in passing – that of course not every repository must by definition have long-term preservation facilities. She agreed with Eileen Fenton that trusted third-party services are not only an acceptable but often an essential part of the digital preservation equation.

Maria Heijne Maria Heijne (TU Delft Library, 3TU Datacentre) agreed with Hans Jansen that securing long-term access to research data and publications is core business for libraries. In her view, libraries have no choice but to engage in data management. She rhetorically asked her audience: who else could do it? It is libraries that have the experience needed, they just need to give their services a digital twist.

This digital twist – as also stressed by Eileen Fenton – involves working very closely together with the research communities themselves. They all have very distinct workflows and metadata schemes which are also very different from libraries’ traditional schemes, so both sides must do a lot of adapting. Although it is early days yet, I think the 3TU.datacentre is really developing into a best practice of research libraries’ involvement with data curation. 3TU do exciting work in developing an entirely new relationship with the research community to create a win-win-situation for researchers and research libraries: better quality data during the research process, which then flows into the digital archive with very little additional effort. Be sure to have another look at her powerpoint presentation when we publish it on our website for more details. And perhaps we can write an article about it in LIBER Quarterly, Maria?

I was very sorry that I could not be in two places this afternoon. Of course I had fellow rapporteurs in the workshops I could not attend, but there was too little time to integrate their notes here. We will, of course, provide a full account in the next issue of LIBER Quarterly.

Here are my own notes from two of the four workshops (with apologies to the other workshop hosts who no doubt had much to say as well):

National and international roles

This session was led by Keith Jeffery (STFC, UK, and chairman of the Alliance for Permanent Access) and Peter Wittenburg (Max Planck Institute of Linguistics, Nijmegen). They focussed their attention on research itself; what elements of the research life cycle should in fact be preserved, and who is responsible for preserving them? This is a monumental question, especially as the researchers in our group kept stressing how complicated research data are. Only the publication is static, everything else is dynamic and thus difficult to preserve.

Some doubts were raised as to whether libraries are in fact best suited for the job of preserving the manifold elements of the research life cycle. Libraries’ work flows and metadata schemes, it was suggested, are perhaps too ‘library-centric’ to serve the research community properly.

So should perhaps the management of live data, including providing access, be separated from the archiving functions? And, more importantly, should communities themselves take care of curation rather than libraries? Krystyna Marek from the European Commission explained that the e-infrastructure vision of the EU is in fact focussing on the research communities themselves.

I should not forget to mention that Hans Geleijnse of LIBER suggested that we draw up 5 or 10 golden rules of digital curation, to help the community along. UNESCO drew up such guidelines in 1996, but they need modernising and updating. Half the attendees of this workshop volunteered on the spot to help bring this about, which I thought was very impressive.

Problems, preconditions and costs: opportunities and pitfalls

DSC_0048 Neil Beagrie (Charles Beagrie Ltd.) took his cue from David Rosenthal, who recently held a controversial presentation at CNI, saying that our real problems now are not about media and hardware obsolescence, as predicted by Jeff Rothenburg in his famous 1995 article, but rather about scale and cost and intellectual property. ‘Bytes are vulnerable to money supply glitches,’ is a memorable quote, especially in these credit crunch times.

DSC_0061 So, what does digital preservation cost? Marcel Ras shared his experiences with the KB e-Depot which now archives about 13 million journal articles, thereby providing a sound base for archiving the published output of research. Between now and 2012, however, the size of the e-Depot will grow expotentially, as the e-Depot will incorporate digitised masters and websites. Yet the cost is expected to remain more or less stable at 6 million euro’s a year, which includes 14 full-time staff.

What does this say about possible costs for research libraries? Neil Beagrie investigated the costs of preserving research data at higher education institutions in the UK; the report 'Keeping Research Data Safe' is on the JISC website. Notable findings are that preserving research data is much more expensive than preserving publications. Also, as predicted earlier this morning, timing is a crucial factor. Good care at creation saves a lot of money in the long run.

Another finding: scale matters. Start-up costs are high, but adding content to existing infrastructures is relatively cheap. The Archaeological Data Service estimates that overall costs tail off substantially anyway with time and scale. This is important for our thinking about funding models and up-front (endowment) payment.

Neil Beagrie concluded his presentation with the observation that when it comes to defining a policy for digital preservation, many higher education institutions still have a long way to go and the same seems to hold true for research libraries.

As a co-organiser of this workshop I would not dare presume that we have answered all your questions, but I do hope that this day has helped you a little further along this no doubt complicated, but also very exciting road.

(The powerpoint presentations will be published next week at http://www.kb.nl/curatingresearch; a full report will appear in the next issue of LIBER Quarterly at http://liber.library.uu.nl/, the current issue of which is devoted entirely to digital preservation issues.)

Photographs, top to bottom (IA): Hans Jansen, KB; Eileen Fenton, Portico; Jeffrey van der Hoeven, KB (ducking behind him his PARSE teammate Tom Kuipers); Maria Heijne, TU Delft Library; Neil Beagrie, Charles Beagrie Ltd., Marcel Ras, KB.

dinsdag 14 april 2009

Voorstel aan Van Dale: datacuratie

Aanstaande vrijdag organiseert de Europese Associatie van Wetenschappelijke Bibliotheken (LIBER) samen met de KB en de NCDD een workshop onder de titel 'Curating Research'. In de vandalePR rond dat evenement hebben we gemerkt dat die term curation nog lang niet overal bekend is.

Data curation is het geheel aan handelingen dat je moet verrichten om data gedurende de hele levenscyclus authentiek, vindbaar en bruikbaar te houden. Uiteraard is duurzaamheid daar een onderdeel van, maar curation is veel meer. Een dermate belangrijk kernbegrip verdient een goede Nederlandse vertaling, zo concludeerde ik vanmiddag aan de koffie met een collega van het Nationaal Archief. Nu kent het Nederlands wel het begrip curator, wat de lading goed lijkt te dekken, maar als werkwoord kent het alleen conserveren en dat lijkt weer net iets te krap voor wat wij proberen te doen met data, namelijk méér dan alleen maar instandhouden.

Dus stel ik voor het begrip datacuratie te gaan gebruiken, lekker aan elkaar zoals wij in het Nederlands plegen te doen. En ja, 'data' is zo ingeburgerd dat ik dat maar zo wil laten.

Als er overwegende bezwaren zijn tegen deze term, dan hoor ik ze graag via het reactieformulier - zo niet, dan zal het eindrapport van de Verkenning het begrip later dit jaar bij Van Dale introduceren.

donderdag 9 april 2009

DigCCurr (8): de laatste soundbites

'Curation is never a one-man job; it is about communication across a number of institutional roles' zei Joy Davidson van het Digital Curation Centre, die hiermee aangeeft hoezeer alle partijen in de keten van digitale informatie afhankelijk zijn van elkaar.

'Short-term solutions for long-term problems' luidt het motto van het Cornell tutorial zoals Nancy McGovern van ICPSR dat in de VS brengt - het feit dat we nog niet weten hoe we duurzame toegang tot in lengte van dagen moeten organiseren mag geen beletsel zijn om nu naar beste vermogen te handelen.

'Ga geen audittraject in als je niet bereid bent om de uitkomsten serieus te nemen', aldus Robin Rice van EDINA, Edinburgh, dat o.a. het Data Audit Framework (DAF) ontwikkelde. En: zorg ervoor dat je stakeholders (financiers, besturen) ook bereid zijn om de consequenties te accepteren van aangetroffen problemen.

'We need survival practices rather than best practices', Clifford LynchDSC_0139.

En daarmee sluit ik de serie blogs uit Amerika af; de proceedings staan op http://stores.lulu.com/DigCCurr2009, downloaden is gratis, POD tegen een geringe vergoeding.

Inmiddels ben ik al weer een aantal dagen terug in Nederland; de jetlag verliest het langzaam maar zeker van het gewone ritme. De komende maanden zijn helemaal gewijd aan de Nationale Verkenning Digitale Duurzaamheid (zie linkerkolom). Ook boeiend!

DigCCurr (7): toegang vs. beperkingen

Diverse sessies behandelden het onderwerp auteursrechten oftewel beperkingen op de toegang tot bewaard materiaal. Die beperkingen nemen soms vreemde vormen aan. Zo kent de VS de HIPAA-wet die toegang tot medische gegevens bepaalt. Het regime is hetzelfde voor courante gegevens als voor gegevens van pakweg 200 jaar geleden, en het is vooral de bewaarplaats die bepaalt of toegang gegeven kan worden. M.a.w.: bevinden de gegevens zich in een museum, dan zijn ze vrij toegankelijk, maar bevinden ze zich in een ziekenhuis dan mag je er niet bij. Wat wetgevers niet allemaal bedenken ...

Jean Dryden van de Universiteit van Maryland deed onderzoek naar de praktijken van repositories in Canada en ontdekte een opmerkelijke tegenstrijdigheid: hoewel die repositories vooral zijn opgericht om toegang tot wetenschappelijk materiaal te bevorderen, zijn de managers van die archieven vaak zo bezDSC_0601orgd dat er wellicht misbruik van de informatie gemaakt zal worden dat ze toegang nogal eens beperken, bijvoorbeeld door alleen lage-resolutie scans ter beschikking te stellen. Vreemd genoeg wordt daarbij nogal eens als excuus gebruikt dat iets auteursrechtelijk niet mag - terwijl het in feite restricties zijn die ze zelf hebben bedacht.

Kirstin R Eschenfelder van de University of Wisconsin-Madison, deed soortgelijk onderzoek naar online culturele collecties in de Verenigde Staten. En ook zij kwam nogal wat beperkingen tegen. De belangrijkste angst bleek die te zijn dat de instelling niet vermeld zou worden als bron van de gegevens - want culturele instellingen moeten tegenover geldschieters steeds weer bewijzen wat voor impact ze hebben op de samenleving.

Iemand uit het publiek merkte op dat we blijkbaar nog midden in de overgang zitten van een analoge wereld naar een digitale: 'veel instellingen lijken internet nog te zien als een stukje van hun eigen instelling, terwijl het in feite een heel nieuwe instelling is.'

dinsdag 7 april 2009

DigCCurr (6) 'research data vragen om diensten op het niveau van een research team'

Michael Day van de University of Bath presenteerde het SCARP project van het Digital Curation Centre dat bedoeld is om te analyseren welke diensten specifieke disciplines in de wetenschap nodig hebben om hun data goed te managen. Die kunnen niet alleen per discipline sterk verschillen, zo meldde Day, maar zelfs per research team. Dat maakt het voor datacentra niet gemakkelijk om diensten op maat te leveren.

Day benadrukte dat het niet genoeg is om ervoor te zorgen dat data beschikbaar worden gesteld voor hergebruik. Datacentra moeten ook faciliteren dat de gegevens snel en efficiënt hergebruikt kunnen worden. Daarbij is het van het allergrootste belang dat zoveel mogelijk contextgegevens worden meegenomen.

DSC_0485Het SCARP project bouwt voort op eerdere studies, bijvoorbeeld door het Engelse Research Information Network (zie bijv. 'To share or not to share' en 'Keeping research data safe' uit 2008) en loopt momenteel nog; slechts één discipline ('neuroimaging') is tot nu toe geanalyseerd (zie website voor rapport). De website van SCARP zal de resultaten van de andere negen disciplines presenteren zodra die beschikbaar komen.

DigCCurr (5): 'interoperabiliteitskwesties niet als excuus gebruiken'

wilkin In zijn 'keynote' speech aan de DigCCurr 2009 conferentie liet John P. Wilkin van HathiTrust (http://www.hathitrust.org/) zien wat 25 bibliotheken vermogen als ze daadwerkelijk 'diep' gaan samenwerken: een collectie van momenteel 5 miljoen publicaties die niet alleen voor de lange termijn is opgeslagen, maar die ook nog eens als één collectie beschikbaar wordt gesteld. Eind 2012 zal de collectie naar verwachting meer dan 16 miljoen publicaties bevatten. En dat alles onder het motto: 'There's an elephant in the library.'

Hoewel de partners momenteel voor 5 jaar hebben ingetekend, maakt Wilkin zich geen zorgen over het langetermijnperspectief: bibliotheken 'are here to stay' en beschikken al over financiering van structurele aard. Maar ieder voor zich zouden de deelnemers geen duurzame opslag tot stand hebben kunnen brengen. Tijdens de Q&A sessie na zijn presentatie gaf Wilkin overigens toe dat de 'barensweeën' van het initiatief behoorlijk zwaar waren geweest. Maar al te vaak, zo meende Wilkin, gebruiken bibliotheken interoperabiliteitskwesties als een excuus om maar niet echte samenwerking te hoeven beginnen. Maar dit is wel een kerntaak van bibliotheken, zo meende Wilkin, die we niet moeten overlaten aan partijen als OCLC of Google.

Wilkin gaf hij aan blij te zijn dat hij niet de problemen van archieven heeft, met complicerende uitdagingen op het gebied van privacy en authenticiteit. Waarvan akte ...

zaterdag 4 april 2009

DigCCurr (4): de visies

In ieder circuit lopen intelligente denkers rond, mensen die net wat verder kijken dan de meesten van ons. De organisatoren van DigCCurr nodigden enkelen van hen uit om in een sessie vrijuit te praten over wat hen bezighoudt: waar staan we, waar gaan we heen? Wat hebben we inmiddels bereikt, waar moeten we nog hard aan trekken?

Clifford Lynch: vooral eerst leren roeien met de riemen die je hebt

lynch Clifford Lynch van de Coalition for Networked Information deelde vier zaken met zijn publiek die hem 'wakker houden':

1. Waarom zijn we er nog steeds niet in geslaagd om de noodzaak voor langetermijntoegang zo hoog op de agenda's te krijgen dat het een vanzelfsprekendheid wordt? Niet alleen financieel, maar ook politiek en juridisch? Waarom wordt bijvoorbeeld auteursrecht nog steeds veel hoger ingeschat dan het recht op toegang? -- Ik kan hier het een en ander bij bedenken, namelijk dat langetermijnzaken bijna altijd het onderspit delven, maar Lynch heeft hier een punt: we moeten het belang erin blijven hameren, steeds opnieuw.

2. De vraag hoe we voor dit alles gaan betalen wordt [in de VS? - IA] nog vaak beantwoord met allerhande 'economische modellen', men verwacht ergens nog 'market magic' [Zie bijv. het recente rapport Sustaining the Digital Investment - IA]. Maar Lynch gelooft daar niet in. Hij pleit ervoor om onszelf niet gek te maken en te accepteren dat het vooral de overheid zal zijn die voor de kosten opdraait.

DSC_0529 3. We doen nog steeds iets fundamenteels fout bij trainingen en opleidingen: we leren mensen hoe ze de ideale situatie tot stand moeten brengen, hoe ze daarin moeten werken. Maar de werkelijkheid is meestal zo anders. Niet genoeg mensen, te weinig expertise, niet genoeg geld, enorme hoeveelheden informatie die op instellingen afkomen. Lynch gebruikte de term 'triage', ik weet niet of we die in Nederland ook kennen: prioriteren in tijden van grote rampen, kiezen, wat wel wat niet, met beperkte middelen. -- In een van mijn wandelgangengesprekken bepleitte Jaap Kamps van de UvA iets dergelijks: we hebben gereedschappen nodig die kleine instellingen zonder veel expertise kunnen helpen in elk geval het hoogstnodige in veiligheid te brengen. Praktisch, laagdrempelig, goedkoop. Ik vond dit een belangrijk punt van Lynch. Natuurlijk werken we voor 'de eeuwigheid', maar soms betekent dat praktisch NU handelen om in elk geval het belangrijkste veilig te stellen.

4. We besteden nog veel te weinig aandacht aan het veiligstellen van persoonlijke informatie - 'our personal traces are smeared across an ever changing storage cloud'. -- Helemaal waar, denk ik dan, maar help, waar te beginnen???

Donald Sawyer: checken checken en nog eens checken

DSC_0528 Donald Sawyer is inmiddels gepensioneerd, maar heeft jarenlang voor NASA gewerkt, de organisatie die het OAIS-model ontwikkelde, en die meer dan 45 jaar ervaring heeft met duurzame opslag van de gegevens die voortkomen uit ruimtereizen. Men heeft dus al de nodige migratieslagen achter de rug. En wat opmerkelijk is: men is altijd redelijk open geweest in het delen van de ervaringen met die operaties - ook als het minder goed was gegaan. Ach, zegt Sawyer daarover, ik ben weleens teruggefloten, maar nu ik gepensioneerd ben kunnen ze me helemaal niets meer maken :-).

Sawyer vroeg aandacht voor (vooral menselijke) fouten die jarenlang in systemen kunnen liggen te slapen voordat ze zichtbaar worden omdat de zoveelste migratieslag iets moet doen met die foutieve gegevens.

Die fouten waren vaak ontstaan bij de invoer helemaal aan het begin, maar ook nogal eens tijdens periodes waarin NASA's budgetten flink gekort werden en de werkdruk dus enorm opliep. Onder zulke omstandigheden is het logisch dat medewerkers weleens een 'short cut' nemen, de regels niet 100% goed volgen, met alle gevolgen van dien.

Sawyer's adviezen? Checken checken en nog eens checken, liefst door een onafhankelijke derde partij en zoveel mogelijk automatisch. Menselijke inbreng is foutgevoelig, en die wil je dus zo veel mogelijk inperken. En zorg ervoor dat het management weet wat er kan gebeuren met belangrijke data als de werkdruk te hoog wordt opgevoerd. -- Impliciet lijkt dit te betekenen: liever minder bewaren, maar dan goed, dan alles willen bewaren, maar dan slecht, vul ik maar even in.

De derde VIP was Kevin Ashley van het Engelse University of London Computer Centre - hij gaf een lange lijst van dingen waar we aan moeten werken. Ik verwijs graag naar de powerpoint die ongetwijfeld binnenkort online komt [link volgt].

De discussie: vertrouwen en tegenstrijdigheden

DSC_0483 In de discussie kwam het thema van vertrouwen weer bovendrijven: hoe weet ik wie ik kan vertrouwen met mijn gegevens? Enerzijds moet er dus meer werk worden verzet t.a.v. auditing en certificering, maar Kevin Ashley van University of London Computer Centre (ULCC) bepleitte ook een stukje pragmatisme: 'It would be an absolute tragedy if we lost important information simply because we did not trust each other.'

Over de noodzaak om samen te werken zei Clifford Lynch: natuurlijk willen we coordineren en samenwerken om dubbel werk te voorkomen, maar digitale duurzaamheid is op dit vlak ook tegenstrijdig: je hebt eigenlijk diverse concurrerende systemen nodig om de beste kans te hebben dat de informatie overleeft.

Foto's: boven Clifford Lynch; middenfoto's: de visiesessie was zo druk bezocht dat diverse mensen (waaronder Hans Hofman van het NA, met de handen in het haar) op de grond moesten zitten; onderaan: mijn internationale netbookstekker trok veel aandacht. De grootste uitdaging op conferenties is tegenwoordig om een plek te bemachtigen in de buurt van een stopcontact, want die batterijen halen het niet van 8.30 u tot 17.00 u. De plekken langs de wand hebben dus A-status gekregen.

DigCCurr (3): training en opleiding

DSC_0543Diverse sessies besteedden aandacht aan training en opleiding van DD professionals. Nancy McGovern, een van de ontwikkelaars van het befaamde Cornell tutorial sprak, evenals Kevin Ashley van University of London Computer Centre (UK) die dit tutorial naar Engeland bracht in het kader van het DPC opleidingsprogramma. En natuurlijk zijn de gastheren/vrouwen van deze conferentie (North Carolina School of Information and Library Sciences, SILS) zeer actief op dit terrein - de conferentie heeft niet voor niets het woord 'curriculum' in de titel staan (hoewel de onderwerpen van veel breder zijn geworden).

Hans Hofman vertelde over DPE en WePreserve in Europa (zie vorige blog) en de onzekerheden over de continuiteit van het opleidingsprogramma in Europa.

Een aantal thema's uit de presentaties:

  • Het vak verandert snel, wat betekent dat professionals continu moeten bijscholen t.a.v. de nieuwste ontwikkelingen en gereedschappen.
  • Er zijn veel losse conferenties en workshops, maar (nog) geen structuur die een professional houvast kan bieden ten aanzien van wat hij moet weten.
  • Er is veel theorie, maar het is nog moeilijk om genoeg praktijkervaring op te doen en juist die praktijkervaring is zo belangrijk. Magia Krause van de University of Michigan vertelde dat haar eerstejaars stagiDSC_0518aires bij de instellingen waar ze hun praktijkervaring moesten opdoen direct in de rol van expert en consultant werden gedwongen - in het land der blinden ....
  • Magia Krause gaf ook aan dat het in pedagogisch opzicht vooral belangrijk is om studenten te leren te denken vanuit het langetermijnperspectief - als dat er eenmaal in zit, komt de rest vanzelf.
  • Joy Davidson van het Digital Curation Centre (DCC) uit Engeland vertelde over cursussen die het DCC ontwikkellt om databeheerders en onderzoekers dichter bij elkaar te brengen. De kruisbestuiving tussen beide belanghebbenden werkt goed, zo vertelde ze, maar waar de databeheerders bereid zijn om 4 of 5 dagen aan het onderwerp te besteden, vinden onderzoekers 2 dagen meer dan genoeg. Voor hen is hun onderzoek zelf natuurlijk belangrijker. Als je wetenschappers wilt leren om goed met digitale data om te gaan, dan kun je beter insteken op data management dan op digitale duurzaamheid, want daar is de interesse groter.

Dit alles zette me wel aan het denken over opleidingsmogelijkheden in Nederland. Zijn die er genoeg? Niet alleen de basisopleidingen, maar ook de 'éducation permanente' waar dit vak om vraagt? Halen we genoeg kennis uit het buitenland of zouden we toch meer in Nederland en/of in de Nederlandse taal moeten organiseren, bijvoorbeeld een Nederlandse versie van het Cornell tutorial? Ik kan het (nog) niet hard maken, maar ik vermoed dat hier het nodige werk verzet moet worden voor Nederland. Tijd voor een NCDD werkgroep Training en opleiding?

Foto's: Cal Lee en Helen Tibbo, de motoren achter de conferentie en het opleidingsprogramma van de North Carolina School of Information and Library Science.

DigCCurr (2): waar een klein land ...

IMG_9635 Het valt me op hier dat er met waardering wordt gesproken over wat een klein land als Nederland doet op het gebied van digitale duurzaamheid. Butch Lazorchak van NDIIPP (zie blog 1 april) sprak waarderend over het Data Seal of Approval, en op deze conferentie in North Carolina zijn maar liefst drie 'invited' sprekers plus een sessie-moderator uit Nederland: Jaap Kamps (Leerstoelgroep Archief- en Informatiewetenschap, Instituut voor Informatica van de Universiteit van Amsterdam), Jeffrey van der Hoeven van de Koninklijke Bibliotheek (over emulatDSC_0516ie en Dioscuri) en Hans Hofman van het Nationaal Archief - die zijn gehoor vertelde over Europese inititieven op het gebied van training en opleiding, met name DPE dat helaas vier dagen geleden opgehouden heeft te bestaan. De opvolger, WePreserve, heeft tot nu toe maar één lid, het Duitse nestor. Hans gaf aan dat er zorgen zijn over de continuiteit van de Europese opleidingsinitiatieven (zie ook blog DigCCurr (3)). Raymond van Diessen van IBM, tenslotte, was de moderator van de 'visie-sessie'(zie blog DigCCurr (4)).

Foto's: boven: 7.30 a.m., wachten op de bus naar het conferentieoord: vlnr Jaap Kamps (UvA), Andrew McHugh (HATII, Glasgow), Jeffrey vd Hoeven (KB) en IA; onder: Hans Hofman van het NA spreekt over DPE en WePreserve.

vrijdag 3 april 2009

DigCCurr (1): technische infrastructuur delen

Ik ben vanuit Washington DC een uurtje vliegen naar het zuiden afgezakt naar de DigCCurr ('say dij-seeker' of Nederlands fonetisch iets als Didzj-sie-kurr) 2009 conferentie in Chapel Hill, NC. Meer dan 270 deelnemers, dat is nogal wat.

Vanochtend was er een interessante lezing over 'girodssessieedistribueerde netwerken'. Het was best wel technisch, en dat is niet mijn sterkste kant, maar bij al ons denken over beleid moeten we vooral niet vergeten nieuwe technische mogelijkheden mee te nemen.

De North Carolina School of Information and Library Sciences (SILS; organisator van de conferentie) heeft een interessant probleem opgepakt: hoe kun je je techniek zo organiseren dat vele en veelsoortige organisaties gezamenlijk gebruik kunnen maken van een "grid" - de som van een heleboel opslagfaciliteiten. Daarbij wil je ook faciliteren dat gegevens van de omgeving van de maker soepel wordt overgezet naar de omgeving van een digitaal archief. Bovendien wil je mogelijk maken dat iedere eigenaar van informatie zelf de baas blijft over zijn of haar informatie, waar die zich fysiek ook bevindt ergens op het "grid".

irods Een (gedeeltelijk?) antwoord is iRODS: Integrated Rule-Oriented Data System. Dit systeem probeert niet om allerhande organisaties dezelfde preserveringsstandaarden op te leggen (vele tekenen wijzen erop dat dat toch niet werkt) maar om het beleid en de regels van specifieke organisaties te vertalen naar automatisch door systemen uit te voeren taken. Dat woord 'automatisch' is belangrijk, want menselijk ingrijpen wordt steeds lastiger (en veel te duur) naarmate de hoeveelheden data groter worden. Iedere organisatie of groep organisaties die meedoet aan het systeem definieert zijn 'community profile' - de hele set van regels, toegangsregimes, authenticatie-voorwaarden en ga zo maar door. Dat community profile wordt technisch vertaald en in een 'rule engine' gestopt en gekoppeld aan de gegevens van de inbrengende organisatie. Een gebruiker die informatie opvraagt krijgt van de 'rule engine' te horen wat hij wel en niet mag, en ook preserveringsacties worden door de 'rule engine' in gang gezet.

Natuurlijk zijn er technisch gezien de nodige haken en ogen, maar het idee is aanlokkelijk - met name voor organisaties die zelf niet de middelen hebben om een eigen depot op te zetten of te onderhouden. Met behulp van deze tool kunnen zij gezamenlijk wel een systeem in leven houden dat hun data veilig opslaat - waarbij zij zelf alle controle houden over die data.

irodspanel Maar werkt het ook? Caryn Wojcik van de Records Management Division van de Staat Michigan (midden op de foto) vertelde dat zij vooral oplossingen zoekt die WERKEN, die praktisch zijn. Zij beschreef het DCAPE project (Distributed Custodial Archival Preservation Environments) dat iRODS inmiddels toepast. Het doel van DCAPE is een generieke data infrastructuur te bouwen waarin allerhande sectoren (cultuurhistorie, overheid, bibliotheken, wetenschap) digitale gegevens kunnen opslaan.

DCAPE is "nog" maar een project, en het is nog niet bewezen dat het werkt, maar ik heb Caryn's e-mail adres, en ik ga dit project goed in de gaten houden. Want wat werkt voor Amerikanen die van nature wars zijn van centrale regie, zou ook wel eens kunnen werken in een land van polderdemocratie.

Foto's (IA): De sessie over gedistribueerde netwerken zat zo vol dat we moesten uitwijken naar een grotere zaal; in het midden het principe van iRODS; onderaan het panel van de iRODS sessie: in het midden Caryn, rechts Richard Marciano van iRODS.

donderdag 2 april 2009

Duurzaamheid op zijn Amerikaans (2)

ndippteam Je kunt veel van Amerikanen zeggen: dat ze soms wel erg zelfbewust zijn, dat ze luidruchtig zijn, dat ze weinig weten van de rest van de wereld, maar wat zijn ze ook ongelooflijk vriendelijk als je ze zomaar tegenkomt en enthousiast en bereid om alle kennis met je te delen als je, zoals ik, op bezoek gaat bij het Amerikaanse National Digital Information & Preservation Program. Martha Anderson (midden) en haar collega's Butch Lazorchak (r) en Abigail Potter namen vanochtend alle tijd voor me -- om hun successen te delen, maar ook om eerlijk te praten over wat haalbaar is als je je ten doel hebt gesteld een nationale strategie voor digitale duurzaamheid te ontwikkelen.

jeffersonbuilding Want net als de NCDD heeft het NDIIPP zich het ambitieuze doel gesteld om een nationale strategie voor digitale duurzaamheid te ontwikkelen. Aan het begin van ons gesprek gooide ik die knuppel maar direct in het hoenderhok, waarop Martha met een brede glimlach antwoordde: "Wel, er is niks mis met het stellen van hoge doelen." Aan het eind van het gesprek concludeerde Martha: "We hebben na vijf jaar de infrastructuur gebouwd voor samenwerken; de volgende uitdaging is om die te mobiliseren om de infrastructuur voor digitale duurzaamheid te bouwen." In de visie van Martha zal dat geen mega-systeem zijn maar een netwerk van samenwerkingsverbanden die vooral rond de content gegroepeerd zijn. Want daar bestaan vaak al samenwerkingsverbanden waarop je kunt voortborduren. Dat is dan ook de aanpak van het NDIIPP: contact maken met netwerken die duidelijke inhoudelijke raakvlakken hebben en hen op weg helpen om de digitale duurzaamheid te organiseren. Oftewel, zoals Butch zei: "We light fires all over the place, and hope that they keep burning."

locspeciaal Geld is niet alles

Het NDIIPP is ooit gestart met een projectbudget van M$100. Dat helpt natuurlijk enorm bij het bouwen van een netwerk en het stimuleren van samenwerkingsvormen. Maar het was niet alles, zo benadrukte Martha. Sterker nog, toen het budget later werd gehalveerd door het Congres, was dat niet eens een erg groot probleem. Belangrijker was het voor Martha om structurele financiering voor het bureau van NDIIPP zelf voor elkaar te krijgen, hetgeen vorig jaar lukte. Je moet een kern van mensen hebben die je structureel kunt betalen om het probleem steeds weer op de agenda te zetten, om mensen bij elkaar te brengen, discussies te faciliteren, en hier en daar met een geldelijke impuls die samenwerking te helpen bouwen. Maar belangrijker dan geld is de rol van het NDIIPP (en de Library of Congress) als leider van het debat. Die rol is de LoC door het Congres ook met nadruk toebedeeld. De LoC en NDIIPP werken als catalysator. Dat kan met name belangrijk zijn als de vele belanghebbenden elkaar moeten gaan vertrouwen om effectief te kunnen samenwerken. Vertrouwen ontstaat niet zomaar, dat kost veel tijd, zo vertelde Martha.

En die nationale strategie? Nu, na vijf jaar, werkt Abigail aan het eerste visiedocument voor een nationale strategie.

Tot zover de eerste indruk vanaf het vliegveld.

Foto's (IA): het NDIIPP team, vlnr Abigail Potter, Martha Anderson en Butch Lazorchak; daaronder: Hoewel NDIIPP zetelt in het strakke Madison gebouw (zie linkerkolom), kreeg ik ook even het Jefferson Building van de Library of Congres te zien - zo "opulent" gebouwd om indruk te maken op de Europeanen, maar duidelijk van later datum dan de Europese paleizen, want een van de engeltjes bij de ingang heeft een telefoon in de hand; derde foto: de leeszaal voor de Members of Congress zelf, verboden terrein, natuurlijk, voor gewone stervelingen :-)

woensdag 1 april 2009

Denktank vóór realisatie Limburgs e-Depot

Een Denktank Limburgs e-Depot is tot de conclusie gekomen dat het de moeite waard is om stapsgewijs te komen tot de realisatie van een Limburgs e-Depot, zie nadere berichten en een link naar het eindrapport op http://www.rijckheyt.nl/sjablonen/rijckheyt/pagina.asp?pagina=724. Meer nieuws later deze week op de blog van ED3.