Duurzame toegang (long-term access): januari 2011

vrijdag 21 januari 2011

Linked data (2): de praktijk

De blog van eerder deze week met een stuk (onmisbare) theorie over linked data trok veel bezoekers. Afgelopen woensdag kwam bij SURFfoundation meteen de praktijk aan de orde tijdens de kick-off van een zestal projecten rondom ‘verrijkte publicaties’ (enhanced publications) (zie ook de website van SURF). Een verrijkte publicatie (oftewel VP) is een publicatie die maximaal gebruik maakt van alle nieuwe digitale mogelijkheden. Het kan een on-line publicatie zijn met allerhande digitale objecten erin (databases, films, AV-materiaal, visualisaties), maar ook bijvoorbeeld een website waarop allerhande extra informatie te vinden is die niet in een boek past. De mogelijkheden zijn schier onuitputtelijk.

Maar … om die mogelijkheden te kunnen uitbuiten en soepel van het ene medium naar het andere te kunnen springen (d.w.z. alles in context bij elkaar te houden), is heel wat (nieuwe) techniek nodig, gebaseerd op de principes van Linked data. Er moeten goede tools komen om verrijkte publicaties te maken, wetenschappers moeten leren daarmee om te gaan, universiteiten en data-archieven moeten zich instellen op een heel nieuwe informatiestroom.

De VP projecten van SURF zullen niet alle antwoorden opleveren, daarvoor zijn ze te klein. Maar ze pakken wel de hele keten aan: de productiefase, de gebruiksfase en zelfs de fase van duurzame toegankelijkheid. Interessant aan de bijeenkomst was dan ook dat hier alle belanghebbenden om de tafel zaten: wetenschappers, repositories van universiteiten, archieven, ontwikkelaars van instrumenten en een uitgever. Dat leidde tot interessante discussies die heen en weer vlogen tussen de inhoud van het werk en de techniek. Het enthousiasme van de wetenschappers voor de mogelijkheden was aanstekelijk. Maar, zo zei Nicholas Jankowski van KNAW e-Humanities: “We are not evangelical’.

Technisch komt er wel het een en ander bij kijken, zo lieten de ontwikkelaars zien, van SURF zelf, maar ook uit de Universiteit Twente. De dia hiernaast laat de belangrijkste eisen zien waaraan VP’s moeten voldoen, zoals samengevat door SURF-ontwikkelaar Magchiel Bijsterbosch. Het draait allemaal weer om de triples, de relaties tussen objecten en concepten. Die kunnen per wetenschappelijke discipline verschillen, en daarom kunnen alleen de wetenschappers zelf die relaties goed leggen.

Duurzame toegankelijkheid – de wereld verandert snel

Dat het duurzaam toegankelijk houden van dit soort materiaal een hele nieuwe uitdaging is, mag duidelijk zijn. Onder andere in NCDD-verband hebben de Koninklijke Bibliotheek en DANS afgesproken dat de KB voor publicaties zorgt en DANS voor de onderzoeksdata, maar de wereld verandert snel en die afspraken moeten ter discussie worden gesteld. De KB en DANS hebben daarom besloten om de vijf verrijkte publicaties uit deze SURFshare ronde te analyseren op duurzame toegankelijkheid en aanbevelingen te doen hoe die gewaarborgd kan worden. Maar het zal niet bij deze vijf publicaties blijven. Het project wil ook fundamenteler kijken naar het duurzaam toegankelijk houden van dit soort complexe digitale ‘publicaties’ in het algemeen. De NCDD kan zijn borst natmaken – maar daar zijn we natuurlijk ook voor.

Ten slotte: omdat het vrij kortlopende projecten zijn wil SURFfoundation de projectmedewerkers niet belasten met al te veel bureaucratische rompslomp. Zij vragen de medewerkers om via een blog SURF en elkaar op de hoogte te houden van de vorderingen. Welke blog maakt niet uit. En daarom: Paul Doorenbosch en Barbara Sierman van de KB en de betrokken DANS-medewerkers: ik nodig jullie graag uit om Duurzame Toegang als jullie voortgangsblog te gebruiken. Dan blijven we allemaal op de hoogte.

maandag 17 januari 2011

'Linked Data' - wat is dat nu eigenlijk precies?

Linking Open Data cloud diagram, by
Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/”

De termen ‘linked data’ en ‘semantisch web’zijn regelrechte buzz-woorden. Maar wie weet precies wat ze betekenen? De KB doet momenteel onderzoek naar linked data en KB-collega Irene Haslinger schreef voor KB-collega’s een handzame inleiding, die ik hier graag met jullie deel. Dank, Irene!

Wat is linked data?

Ooit werden moeren en bouten met de hand vervaardigd als unieke paren. Ieder paar was precies passend, maar dan wel alleen op elkáár. In 1800 bedacht de Engelsman Henry Maudslay de draaibank. Deze uitvinding maakte het mogelijk om moeren en bouten te maken met dezelfde standaard schroefdraad. Vanaf dat moment werden moeren en bouten uitwisselbaar.

Tim Berners-Lee vond twintig jaar geleden het wereldwijde web uit. Dit was opnieuw een doorbraak, maar dan voor de uitwisselbaarheid van digitale documenten. Standaarden als http en html maakten het mogelijk een wereldwijd netwerk van documenten te bouwen.

Naar schatting wordt er iedere dag 15 petabyte aan data gecreëerd op het web. Deze vloedgolf aan informatie biedt enorme mogelijkheden, maar er is nog steeds een probleem. Bij het uitwisselen van informatie worden standaarden gebruikt voor de verpakking van de informatie, maar niet voor de inhoud. Het is alsof er standaarden zijn voor de dozen waar de moeren en bouten in verpakt zijn, maar niet voor de moeren en bouten zelf. De inhoud van de dozen past dan ook niet eenvoudig in elkaar, en is ook niet makkelijk uitwisselbaar.

De introductie van Linked Data, opnieuw een vondst van Tim Berners-Lee, is vergelijkbaar met Maudslay’s uitvinding van de draaibank. De Linked Datatechniek maakt het mogelijk om data te voorzien van een “standaard schroefdraad”, zodat deze data direct past op alle data die voorzien is van dezelfde standaard.

Hoe werkt Linked Data?

Op het web worden documenten aan elkaar verbonden met links. Maar deze links zelf hebben geen betekenis. De links laten niet zien wat de relatie is tussen twee documenten, alleen dat er een relatie is. Gebruikers die van document A naar document B linken moeten zelf uitvinden wat het verband is tussen de inhoud van het ene document en het andere. Uit de link blijkt bijvoorbeeld niet of document B een positief of negatief oordeel over document A bevat.

Het Linked Datamodel is gebaseerd op de volgende gedachte: bij het verbinden van inhoud met inhoud moet je de relatie ertussen betekenisvol maken.

Deze relatie kan recht toe recht aan zijn, zoals in een thesaurus begrippen aan elkaar worden gerelateerd:

x	is gelijk aan	y
x	is een koepelterm van	z
z	is een subset van	x

De relatie kan ook specifieker zijn, zoals:

x	is de schrijver van	y
x	bedacht	z
x	had een negatief beeld van	w

In bovenstaande voorbeelden zijn x, y, z en w zgn. concepten. Concepten kunnen verwijzen naar personen, dingen en gebeurtenissen in de werkelijkheid, maar ook naar niet-bestaande personen, dingen en gebeurtenissen.

De relaties tussen de concepten x, y, z en w (onderstreept in de bovenstaande voorbeelden) zijn betekenisvol omdat eruit blijkt hoe x, y, z, en w aan elkaar gerelateerd zijn, bijvoorbeeld x is de schrijver van y.

Een combinatie van het type [x relatie y] heet een triple. Een triple bestaat altijd uit drie onderdelen: een subject (x in het voorbeeld), een eigenschap (benoemt de aard van de relatie, bijvoorbeeld is de schrijver van), en een waarde (y in het voorbeeld). De triples worden gecodeerd volgens het RDF model (Resource Description Framework). RDF is een W3C standaard voor het vastleggen en uitwisselen van gegevens.

De drie onderdelen van een triple krijgen elk een unieke naam in de vorm van een URI: een Uniform Resource Identifier. Deze URI geeft niet alleen een unieke naam aan een concept, maar bevat ook informatie over de herkomst van de data, d.w.z. uit welke dataset het concept afkomstig is. Dit kan bijvoorbeeld een persoonsnamenthesaurus zijn of Wikipedia. Hierdoor heeft ieder onderdeel van de triple niet alleen een unieke naam, maar ook een uniek adres. De URIs zijn vervolgens ingebed in het http://schema, het webprotocol voor het ophalen van informatie. Dit betekent dat de gebruikers de concepten kunnen opvragen. Samengevat komt de techniek van Linked Data op het volgende neer:

Triple:
SUBJECT	EIGENSCHAP	WAARDE
x	is de schrijver van	y
\|	\|	\|
[http://URI] herkomst: persoonsnamen- thesaurus	[http://URI]	[http://URI] herkomst: Wikipedia

De combinatie van http://URIs in RDF triples zorgt ervoor dat:

- Elk concept een unieke naam heeft (URI)

- Gebruikers die concepten kunnen opzoeken en opvragen (http)

- De relatie tussen twee concepten informatieve waarde heeft

Op deze manier kan informatie uit de ene dataset direct, en op betekenisvolle wijze, in verband worden gebracht met informatie uit een andere dataset. Dit kunnen twee databases zijn die onderhouden worden door twee verschillende instellingen. Maar het kan ook gaan om verschillende systemen in één organisatie die niet gemakkelijk informatie kunnen uitwisselen op dataniveau. In principe zijn de verbindingsmogelijkheden eindeloos, zolang de informatie maar is uitgerust met “standaard schroefdraad”, d.w.z. een http://URI die onderdeel kan uitmaken van een RDF triple.

Een voorbeeld van Linked Data

Het Linked Datamodel is krachtig omdat een onderdeel van de ene triple ook weer onderdeel van een andere triple kan zijn, zoals hieronder:

SUBJECT	EIGENSCHAP	WAARDE
J.K. Rowling	bedacht	Harry Potter
		Harry Potter	komt voor in	De Steen der Wijzen
		SUBJECT	EIGENSCHAP	WAARDE

In dit voorbeeld is Harry Potter een waarde in de eerste triple, maar het subject in de volgende triple. Op deze manier kunnen concepten aan elkaar gekoppeld worden, en zo ontstaat een ‘web’ van gerelateerde begrippen. Dit web kan eenvoudig worden uitgebreid met nieuwe concepten en relaties, zolang ze maar geformuleerd zijn in RDF.

Concepten en de relaties ertussen worden vaak gevisualiseerd als een graph (een soort wolk). Onderstaand plaatje laat zien dat er vanuit ieder concept in principe een verband kan worden gelegd met een ander concept. Een gebruiker kan a.h.w. door de graph heen wandelen van iets dat hij weet, naar iets dat hij niet weet, en zo iets nieuws ontdekken. Navigeren kan beide kanten uit; voor de betekenis van de relaties is de richting van de pijlen wel van belang.

RDF triples kunnen bevraagd worden met de zoektaal SPARQL. In bovenstaand voorbeeld is het bijvoorbeeld mogelijk om alle personages op te vragen die J.K. Rowling bedacht heeft met de zoekvraag: ‘Geef me alle personages waarvoor geldt dat J.K. Rowling er de relatie bedenken mee heeft.’

Waarom is de Linked Data techniek van belang voor bibliotheken?

Het probleem van de context

Om nauwkeurig te kunnen zoeken in de enorme hoeveelheid informatie op het web is zoeken op basis van betekenis onontkoombaar. In dit verband spreekt men dan ook over het semantisch web. Het semantisch web is een verzamelnaam voor technieken die computers in staat stellen de betekenis van de informatie op het web te begrijpen zónder menselijke tussenkomst. Een complicerende factor hierbij is dat de betekenis van mensen, dingen, gebeurtenissen etc. niet constant is, maar kan variëren. Zo heeft de koningin van Nederland een wisselende betekenis die o.a. afhankelijk is van de tijd: in 2010 verwijst het begrip naar Beatrix, maar in 1970 was het Juliana. Menselijke informatieverwerkers zijn gewend om contextuele factoren, zoals tijd, mee te nemen bij het toekennen van betekenis. Voor machines geldt dit niet. Om computers toch in staat te stellen de juiste betekenis toe te kennen, is het aanbieden van relevante context van groot belang. Linked Data is een techniek om machine-leesbare context te genereren.

Bibliografische informatie is momenteel ‘opgesloten’

Bibliografische informatie zoals auteur, titel, jaar van uitgave, etc. zit doorgaans ‘opgesloten’ in catalogi. De metadata worden niet geïndexeerd door zoekmachines, en kunnen ook niet hergebruikt worden. Ze kunnen niet gecombineerd worden met andere data, binnen of buiten de bibliotheekorganisatie, waardoor mogelijk iets nieuws kan ontstaan dat een toegevoegde waarde heeft. Anders gezegd, op dit moment dragen bibliografische metadata niet bij aan het generen van de broodnodige context voor het semantisch web.

Het uit elkaar halen van de bibliografische records, en de inhoud ervan aanbieden als Linked Data, zou een enorme sprong voorwaarts betekenen, omdat:

de zichtbaarheid van bibliotheekcollecties vergroot wordt. Gebruikers zullen de collecties beter kunnen vinden. De inspanningen die zijn gedaan, met name op het gebied van digitalisering, komen duidelijk voor het voetlicht. Er wordt daarom wel gezegd dat het aanbieden van metadata als Linked Data een vorm van search optimization is. De bibliografische informatie is voor iedereen zichtbaar. Iedereen kan ‘erbij aanhaken’ en de informatie gebruiken om (nieuwe) verbanden tussen concepten te leggen. Dit betekent dat de inherente beperking van een MARC of Dublin Core record (vaststaand aantal velden met vaststaand type informatie) vervalt. Dit past in de huidige trend van personificatie van zoekvragen: verschillende gebruikersgroepen hebben verschillende informatiebehoeften.
de interoperabiliteit vergroot wordt. Linked Data is in dit verband de standaard geworden. Aggregators als Europeana stellen als voorwaarde aan deelnemende instellingen dat ze hun metadata aanleveren als Linked Data.
bibliotheken meedoen aan de maatschappelijke tendens om informatie die in principe openbaar is, als Linked Data beschikbaar te stellen. Zo levert de Britse overheid nationale en regionale informatie als Linked Data, met het doel dat deze informatie hergebruikt wordt [zie http://data.gov.uk/ ]. In Nederland is in oktober het initiatief e-Overheid voor Burgers gestart [zie http://www.e-overheidvoorburgers.nl/ ]. Ook hier gaat het om het hergebruik van openbare overheidsinformatie. Argumenten die hierbij gebruikt worden zijn vergelijkbaar met die van de open access discussie. De Deutsche National Bibliothek is inmiddels zo ver, en biedt haar authority data aan als Linked Data. Het gaat hierbij om: 1,8 miljoen persoonsnamen (Personennamendatei (PND), 1,3 miljoen corporatienamen (Gemeinsame Körperschaftsdatei (GKD), 187.000 trefwoorden (Schlagwortnormdatei (SWD), 51.000 Dewey Decimal Classification categorieën.

Wat zijn de belemmeringen?

Bezwaren tegen het Linked Datamodel zijn zowel van praktische als meer principiële aard.

Hieronder volgen een paar praktische hobbels die nog genomen moeten worden:

De zoektaal SPARQL is ingewikkeld en niet zomaar door iedereen te gebruiken. Bovendien is een SPARQL zoekactie traag vergeleken bij een traditionele zoekactie.
Het laden van de triples in het geheugen van een computer kost veel tijd en opslagruimte. Bovendien is de vraag hoe de begrenzing ervan geregeld moet worden; m.a.w. hoe groot is de graph die je gaat opslaan?
Hoe presenteer je de resultaten aan de gebruikers? De interfaces worden steeds kleiner (i-phone etc.), maar de hoeveelheid data waarop een zoekactie gebaseerd is, wordt steeds groter.
Tot nu toe is het leggen van de relaties tussen concepten handwerk. Onderzoek binnen STITCH heeft aangetoond dat het automatisch genereren van relaties (alignments) tot op heden niet zulke goede resultaten geeft.
Licentieproblematiek: Hebben bibliotheken de rechten om hun metadata beschikbaar te stellen voor hergebruik door ‘de hele wereld’? Rechtenvrije Linked Data worden Linked Open Data (LOD) genoemd. Voor deze datasets speelt het licentieprobleem niet; ze kunnen gekoppeld worden aan andere LOD initiatieven, zie http://linkeddata.org voor een overzicht.

De principiële vraagtekens die mensen plaatsen bij het Linked Datamodel hebben betrekking op de volgende punten:

Wat is nou precies de waarde van context? Is het meetbaar?
Ligt het op de weg van de instellingen om de kosten te dragen die nodig zijn om die context te creëren?
Alleen maar het verbinden van informatie levert nog geen nieuwe kennis op: “Een collage is niet per definitie een kunstwerk.”
Instellingen zijn bang dat ze geen invloed meer hebben op de informatie die ze als Linked Data beschikbaar hebben gesteld: “Je weet niet wie er aan de haal gaat met jouw data, en of je daar later last van krijgt.’’

(De vergelijking met de uitvinding van de draaibank is ontleend aan het stuk The Nuts and Bolts of Opening Government Data).

(En excuses voor de hier en daar kleinere lettertypes; conversieproblemen uit Word ….)

maandag 10 januari 2011

Niet missen: conferentie PrestoCentre (audiovisuele archieven)

Overal om me heen zie ik hoe reisbudgetten worden gekort of zelfs helemaal worden geschrapt. Dat betekent dat de mogelijkheden om kennis in het buitenland op te doen dit jaar beperkt zullen zijn. Reden te meer om maximaal gebruik te maken van evenementen die in Nederland worden gehouden. Op 9 mei komt het International Internet Preservation Consortium (IIPC) naar Den Haag met een open conferentie. Informatie daarover volgt zodra die beschikbaar is.
Op 14 en 15 maart organiseert het Nederlands Instituut voor Beeld en Geluid in Hilversum een internationale conferentie rond de lancering van PrestoCentre, het Europese netwerk voor kennisdeling rond audiovisuele archivering. De line-up is indrukwekkend, bekende sprekers uit de hele wereld. En de kosten zijn beperkt (als je vóór 1 februari boekt, kost het maar 100 euro voor twee dagen). De website van Screening the Future 2011 is inmiddels in de lucht. Boeken, zou ik zeggen – ik heb het goede voorbeeld inmiddels gegeven ;-).

vrijdag 7 januari 2011

De kracht van digitale visualisaties

Wie dit filmpje niet kent, moet het toch zeker eens bekijken. Zo aan het begin van het nieuwe jaar is een optimistisch ‘geluid’ niet te versmaden (met dank aan Lucas Pasteuning).

maandag 3 januari 2011

Video's conferentie Alliance for Permanent Access

Eind november blogde ik hier, hier en hier over de conferentie van de Europese Alliance for Permanent Access to the Records of Science. Nu zijn de video's gepubliceerd en ook wat foto's van ondergetekende. Het verhaal van John Wood, de projectleider van Riding the waves is zeker te moeite van het beluisteren waard. En wie echt wil weten waarover het APARSEN project gaat, kan de dia's van David Giaretta, die elkaar altijd in een moordend tempo opvolgen, in de videoversie gelukkig even stilzetten.