Duurzame toegang (long-term access): 'Linked Data' - wat is dat nu eigenlijk precies?

maandag 17 januari 2011

'Linked Data' - wat is dat nu eigenlijk precies?

Linking Open Data cloud diagram, by
Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/”

De termen ‘linked data’ en ‘semantisch web’zijn regelrechte buzz-woorden. Maar wie weet precies wat ze betekenen? De KB doet momenteel onderzoek naar linked data en KB-collega Irene Haslinger schreef voor KB-collega’s een handzame inleiding, die ik hier graag met jullie deel. Dank, Irene!

Wat is linked data?

Ooit werden moeren en bouten met de hand vervaardigd als unieke paren. Ieder paar was precies passend, maar dan wel alleen op elkáár. In 1800 bedacht de Engelsman Henry Maudslay de draaibank. Deze uitvinding maakte het mogelijk om moeren en bouten te maken met dezelfde standaard schroefdraad. Vanaf dat moment werden moeren en bouten uitwisselbaar.

Tim Berners-Lee vond twintig jaar geleden het wereldwijde web uit. Dit was opnieuw een doorbraak, maar dan voor de uitwisselbaarheid van digitale documenten. Standaarden als http en html maakten het mogelijk een wereldwijd netwerk van documenten te bouwen.

Naar schatting wordt er iedere dag 15 petabyte aan data gecreëerd op het web. Deze vloedgolf aan informatie biedt enorme mogelijkheden, maar er is nog steeds een probleem. Bij het uitwisselen van informatie worden standaarden gebruikt voor de verpakking van de informatie, maar niet voor de inhoud. Het is alsof er standaarden zijn voor de dozen waar de moeren en bouten in verpakt zijn, maar niet voor de moeren en bouten zelf. De inhoud van de dozen past dan ook niet eenvoudig in elkaar, en is ook niet makkelijk uitwisselbaar.

De introductie van Linked Data, opnieuw een vondst van Tim Berners-Lee, is vergelijkbaar met Maudslay’s uitvinding van de draaibank. De Linked Datatechniek maakt het mogelijk om data te voorzien van een “standaard schroefdraad”, zodat deze data direct past op alle data die voorzien is van dezelfde standaard.

Hoe werkt Linked Data?

Op het web worden documenten aan elkaar verbonden met links. Maar deze links zelf hebben geen betekenis. De links laten niet zien wat de relatie is tussen twee documenten, alleen dat er een relatie is. Gebruikers die van document A naar document B linken moeten zelf uitvinden wat het verband is tussen de inhoud van het ene document en het andere. Uit de link blijkt bijvoorbeeld niet of document B een positief of negatief oordeel over document A bevat.

Het Linked Datamodel is gebaseerd op de volgende gedachte: bij het verbinden van inhoud met inhoud moet je de relatie ertussen betekenisvol maken.

Deze relatie kan recht toe recht aan zijn, zoals in een thesaurus begrippen aan elkaar worden gerelateerd:

x	is gelijk aan	y
x	is een koepelterm van	z
z	is een subset van	x

De relatie kan ook specifieker zijn, zoals:

x	is de schrijver van	y
x	bedacht	z
x	had een negatief beeld van	w

In bovenstaande voorbeelden zijn x, y, z en w zgn. concepten. Concepten kunnen verwijzen naar personen, dingen en gebeurtenissen in de werkelijkheid, maar ook naar niet-bestaande personen, dingen en gebeurtenissen.

De relaties tussen de concepten x, y, z en w (onderstreept in de bovenstaande voorbeelden) zijn betekenisvol omdat eruit blijkt hoe x, y, z, en w aan elkaar gerelateerd zijn, bijvoorbeeld x is de schrijver van y.

Een combinatie van het type [x relatie y] heet een triple. Een triple bestaat altijd uit drie onderdelen: een subject (x in het voorbeeld), een eigenschap (benoemt de aard van de relatie, bijvoorbeeld is de schrijver van), en een waarde (y in het voorbeeld). De triples worden gecodeerd volgens het RDF model (Resource Description Framework). RDF is een W3C standaard voor het vastleggen en uitwisselen van gegevens.

De drie onderdelen van een triple krijgen elk een unieke naam in de vorm van een URI: een Uniform Resource Identifier. Deze URI geeft niet alleen een unieke naam aan een concept, maar bevat ook informatie over de herkomst van de data, d.w.z. uit welke dataset het concept afkomstig is. Dit kan bijvoorbeeld een persoonsnamenthesaurus zijn of Wikipedia. Hierdoor heeft ieder onderdeel van de triple niet alleen een unieke naam, maar ook een uniek adres. De URIs zijn vervolgens ingebed in het http://schema, het webprotocol voor het ophalen van informatie. Dit betekent dat de gebruikers de concepten kunnen opvragen. Samengevat komt de techniek van Linked Data op het volgende neer:

Triple:
SUBJECT	EIGENSCHAP	WAARDE
x	is de schrijver van	y
\|	\|	\|
[http://URI] herkomst: persoonsnamen- thesaurus	[http://URI]	[http://URI] herkomst: Wikipedia

De combinatie van http://URIs in RDF triples zorgt ervoor dat:

- Elk concept een unieke naam heeft (URI)

- Gebruikers die concepten kunnen opzoeken en opvragen (http)

- De relatie tussen twee concepten informatieve waarde heeft

Op deze manier kan informatie uit de ene dataset direct, en op betekenisvolle wijze, in verband worden gebracht met informatie uit een andere dataset. Dit kunnen twee databases zijn die onderhouden worden door twee verschillende instellingen. Maar het kan ook gaan om verschillende systemen in één organisatie die niet gemakkelijk informatie kunnen uitwisselen op dataniveau. In principe zijn de verbindingsmogelijkheden eindeloos, zolang de informatie maar is uitgerust met “standaard schroefdraad”, d.w.z. een http://URI die onderdeel kan uitmaken van een RDF triple.

Een voorbeeld van Linked Data

Het Linked Datamodel is krachtig omdat een onderdeel van de ene triple ook weer onderdeel van een andere triple kan zijn, zoals hieronder:

SUBJECT	EIGENSCHAP	WAARDE
J.K. Rowling	bedacht	Harry Potter
		Harry Potter	komt voor in	De Steen der Wijzen
		SUBJECT	EIGENSCHAP	WAARDE

In dit voorbeeld is Harry Potter een waarde in de eerste triple, maar het subject in de volgende triple. Op deze manier kunnen concepten aan elkaar gekoppeld worden, en zo ontstaat een ‘web’ van gerelateerde begrippen. Dit web kan eenvoudig worden uitgebreid met nieuwe concepten en relaties, zolang ze maar geformuleerd zijn in RDF.

Concepten en de relaties ertussen worden vaak gevisualiseerd als een graph (een soort wolk). Onderstaand plaatje laat zien dat er vanuit ieder concept in principe een verband kan worden gelegd met een ander concept. Een gebruiker kan a.h.w. door de graph heen wandelen van iets dat hij weet, naar iets dat hij niet weet, en zo iets nieuws ontdekken. Navigeren kan beide kanten uit; voor de betekenis van de relaties is de richting van de pijlen wel van belang.

RDF triples kunnen bevraagd worden met de zoektaal SPARQL. In bovenstaand voorbeeld is het bijvoorbeeld mogelijk om alle personages op te vragen die J.K. Rowling bedacht heeft met de zoekvraag: ‘Geef me alle personages waarvoor geldt dat J.K. Rowling er de relatie bedenken mee heeft.’

Waarom is de Linked Data techniek van belang voor bibliotheken?

Het probleem van de context

Om nauwkeurig te kunnen zoeken in de enorme hoeveelheid informatie op het web is zoeken op basis van betekenis onontkoombaar. In dit verband spreekt men dan ook over het semantisch web. Het semantisch web is een verzamelnaam voor technieken die computers in staat stellen de betekenis van de informatie op het web te begrijpen zónder menselijke tussenkomst. Een complicerende factor hierbij is dat de betekenis van mensen, dingen, gebeurtenissen etc. niet constant is, maar kan variëren. Zo heeft de koningin van Nederland een wisselende betekenis die o.a. afhankelijk is van de tijd: in 2010 verwijst het begrip naar Beatrix, maar in 1970 was het Juliana. Menselijke informatieverwerkers zijn gewend om contextuele factoren, zoals tijd, mee te nemen bij het toekennen van betekenis. Voor machines geldt dit niet. Om computers toch in staat te stellen de juiste betekenis toe te kennen, is het aanbieden van relevante context van groot belang. Linked Data is een techniek om machine-leesbare context te genereren.

Bibliografische informatie is momenteel ‘opgesloten’

Bibliografische informatie zoals auteur, titel, jaar van uitgave, etc. zit doorgaans ‘opgesloten’ in catalogi. De metadata worden niet geïndexeerd door zoekmachines, en kunnen ook niet hergebruikt worden. Ze kunnen niet gecombineerd worden met andere data, binnen of buiten de bibliotheekorganisatie, waardoor mogelijk iets nieuws kan ontstaan dat een toegevoegde waarde heeft. Anders gezegd, op dit moment dragen bibliografische metadata niet bij aan het generen van de broodnodige context voor het semantisch web.

Het uit elkaar halen van de bibliografische records, en de inhoud ervan aanbieden als Linked Data, zou een enorme sprong voorwaarts betekenen, omdat:

de zichtbaarheid van bibliotheekcollecties vergroot wordt. Gebruikers zullen de collecties beter kunnen vinden. De inspanningen die zijn gedaan, met name op het gebied van digitalisering, komen duidelijk voor het voetlicht. Er wordt daarom wel gezegd dat het aanbieden van metadata als Linked Data een vorm van search optimization is. De bibliografische informatie is voor iedereen zichtbaar. Iedereen kan ‘erbij aanhaken’ en de informatie gebruiken om (nieuwe) verbanden tussen concepten te leggen. Dit betekent dat de inherente beperking van een MARC of Dublin Core record (vaststaand aantal velden met vaststaand type informatie) vervalt. Dit past in de huidige trend van personificatie van zoekvragen: verschillende gebruikersgroepen hebben verschillende informatiebehoeften.
de interoperabiliteit vergroot wordt. Linked Data is in dit verband de standaard geworden. Aggregators als Europeana stellen als voorwaarde aan deelnemende instellingen dat ze hun metadata aanleveren als Linked Data.
bibliotheken meedoen aan de maatschappelijke tendens om informatie die in principe openbaar is, als Linked Data beschikbaar te stellen. Zo levert de Britse overheid nationale en regionale informatie als Linked Data, met het doel dat deze informatie hergebruikt wordt [zie http://data.gov.uk/ ]. In Nederland is in oktober het initiatief e-Overheid voor Burgers gestart [zie http://www.e-overheidvoorburgers.nl/ ]. Ook hier gaat het om het hergebruik van openbare overheidsinformatie. Argumenten die hierbij gebruikt worden zijn vergelijkbaar met die van de open access discussie. De Deutsche National Bibliothek is inmiddels zo ver, en biedt haar authority data aan als Linked Data. Het gaat hierbij om: 1,8 miljoen persoonsnamen (Personennamendatei (PND), 1,3 miljoen corporatienamen (Gemeinsame Körperschaftsdatei (GKD), 187.000 trefwoorden (Schlagwortnormdatei (SWD), 51.000 Dewey Decimal Classification categorieën.

Wat zijn de belemmeringen?

Bezwaren tegen het Linked Datamodel zijn zowel van praktische als meer principiële aard.

Hieronder volgen een paar praktische hobbels die nog genomen moeten worden:

De zoektaal SPARQL is ingewikkeld en niet zomaar door iedereen te gebruiken. Bovendien is een SPARQL zoekactie traag vergeleken bij een traditionele zoekactie.
Het laden van de triples in het geheugen van een computer kost veel tijd en opslagruimte. Bovendien is de vraag hoe de begrenzing ervan geregeld moet worden; m.a.w. hoe groot is de graph die je gaat opslaan?
Hoe presenteer je de resultaten aan de gebruikers? De interfaces worden steeds kleiner (i-phone etc.), maar de hoeveelheid data waarop een zoekactie gebaseerd is, wordt steeds groter.
Tot nu toe is het leggen van de relaties tussen concepten handwerk. Onderzoek binnen STITCH heeft aangetoond dat het automatisch genereren van relaties (alignments) tot op heden niet zulke goede resultaten geeft.
Licentieproblematiek: Hebben bibliotheken de rechten om hun metadata beschikbaar te stellen voor hergebruik door ‘de hele wereld’? Rechtenvrije Linked Data worden Linked Open Data (LOD) genoemd. Voor deze datasets speelt het licentieprobleem niet; ze kunnen gekoppeld worden aan andere LOD initiatieven, zie http://linkeddata.org voor een overzicht.

De principiële vraagtekens die mensen plaatsen bij het Linked Datamodel hebben betrekking op de volgende punten:

Wat is nou precies de waarde van context? Is het meetbaar?
Ligt het op de weg van de instellingen om de kosten te dragen die nodig zijn om die context te creëren?
Alleen maar het verbinden van informatie levert nog geen nieuwe kennis op: “Een collage is niet per definitie een kunstwerk.”
Instellingen zijn bang dat ze geen invloed meer hebben op de informatie die ze als Linked Data beschikbaar hebben gesteld: “Je weet niet wie er aan de haal gaat met jouw data, en of je daar later last van krijgt.’’

(De vergelijking met de uitvinding van de draaibank is ontleend aan het stuk The Nuts and Bolts of Opening Government Data).

(En excuses voor de hier en daar kleinere lettertypes; conversieproblemen uit Word ….)

8 opmerkingen:

Unknown zei: Beste Inge,

Hartelijk dank voor deze post! Het maakt duidelijk dat er op verschillende fronten wordt nagedacht over de publicatie van LOD.

Als LOD-enthousiasteling kan ik het niet laten de nadelen te relativeren :-)

SPARQL is in mijn beleving niet ingewikkelder dan SQL of CQL (van SRU). Dat die talen ingewikkeld overkomen wil ik niet ontkennen. Die complexiteit lijkt mij echter niet te voorkomen als je daadwerkelijk volledige vrijheid wilt hebben in het stellen van vragen. En voor het concept van RDF was een nieuwe query-taal nodig, vandaar de ontwikkeling van SPARQL. De taal is in eerste instantie bedoeld voor techneuten en deze zullen er volgens mij geen moeite mee hebben.

De opmerkingen over grenzen, schaalbaarheid en performance van de systemen die met triples overweg moeten, heb ik vaker vernomen en lijken me terecht. Wel logisch want het betreft techniek die zich nog minder bewezen heeft dan het relationeel database-concept. Hoe meer mensen LOD doen, hoe groter de kans dat er ontwikkelaars zijn die hun tanden willen stukbijten op deze problemen!

Tenslotte iets over de grootte van het scherm in relatie tot de hoeveelheid zoekresultaten. Hopelijk neemt dankzij de publicatie van meer datastructuur de precisie in de zoekresultaten toe, zodat er juist kleinere zoekresultaten zijn te verwachten.

Verder overigens hele herkenbare en terechte discussiepunten: relaties vormen extra content en dus extra werk om te maken; hoe zit het met rechten en hoe meten we de bruikbaarheid en het gebruik van onze data. Dat deze punten nog niet zijn uitgekristalliseerd neemt niet weg dat de voordelen niet alvast kunnen worden bereikt door een start te maken met het publiceren van LOD, zoals grote broers als de Library of Congress, de British Library en wikipedia (in de vorm van DBPedia) zijn voorgegaan.

Vriendelijke groet,

Ivo Zandhuis; 18 januari 2011 om 13:32
Inge Angevaare zei: Beste Ivo,
Dank voor je reactie. Ook allemaal waar!
Zou het semantisch web de ruimte worden waar al die informatie uit musea, archieven en bibliotheken eindelijk echt verbonden wordt?
(zie ook je eigen artikel in Archievenblad 2010 nr. 5), http://www.zandhuis.nl/publicaties/zandhuis_archievenblad_mei2010.pdf)
Inge; 18 januari 2011 om 15:45
Unknown zei: Beste Inge,

Deze techniek heeft denk ik inderdaad de potentie om deze oude droom waar te maken, beter dan alle voorgaande. Andersom is het denk ik zo dat het culturele erfgoed een hele goede case is voor andere domeinen om te laten zien hoe het semantisch web zou kunnen werken. Ik ben benieuwd naar de toekomst!

Vriendelijke groet,

Ivo Zandhuis; 18 januari 2011 om 16:59
Anoniem zei: Beste Inge,

Ik ben het met Ivo eens, dat het goed is om te zien dat er steeds meer aandacht komt voor linked open data in de culturele sector in Nederland.
Eén punt: het probleem van de te grote hoeveelheid data om in te zoeken en te presenteren:
ik denk dat het verstandig is toepassingen te maken die niet in alles zoeken, en ook niet alles in één keer presenteren. Je kunt ook op het moment van het presenteren van resultaten on the fly extra informatie via linked data opnemen, gericht op een bepaald onderwerpsgebied, op diverse manieren, met inachtneming van de context. Linked open data is in principe een basisinfrastructuur, waarop allerlei toepassingen gemaakt kunnen worden.
Nog iets anders: Ivo en ik zijn samen met enkele anderen bezig een Linked Open Data event voor de Nederlandse/Vlaamse culturele sector te organiseren, zie de eerste opzet van de website: http://sites.google.com/site/dclod11/

Groet,

Lukas Koster; 18 januari 2011 om 17:43
dikusw zei: Deze reactie is verwijderd door een blogbeheerder.; 19 januari 2011 om 03:12
Inge Angevaare zei: @Dikus Excuses voor dat kleine lettertype. Ik krijg dat er niet uit. Ik denk dat Word hier de schuldige is ...; 21 januari 2011 om 19:21
Anoniem zei: Beste Inge,

Hartelijk dank voor je uitleg. Ik ben nog vrij onbekend met Linked Data en heb een aantal vragen:
1. is het mogelijk Linked Data ook te gebruiken voor de inhoudelijke ontsluiting van bv. artikelen uit vaktijdschriften, rapporten, boeken, krantenartikelen e.d.? Zo ja, kan je uitleggen hoe dat werkt?
2. Het nadeel lijkt me dat je alleen relaties kan terugvinden die vooraf gemaakt (en dus bedacht) zijn. Hoe bepaal je tevoren wat de gebruiker zal willen weten en dus welke relaties je legt? Hoe ver ga je met het leggen van relaties?
3. Hoe kan je in een database met Linked data gegevens zoeken? Is dit werk voor de (informatie)professional of kan de eindgebruiker dat ook?
4. Wie mnoeten de relaties gaan aanbrengen: bibliotheken/informatiecentra/archieven, uitgevers en/of auteurs? Hoe denk je dat dit geregeld wordt?

Ik ben benieuwd naar je antwoorden.

Groet,
Genoveva Geppaart; 29 mei 2011 om 16:35
Inge Angevaare zei: @Genoveva. Dat zijn nogal wat vragen! - en deels ook vragen die mijn technische pet te boven gaan. Stuur me een e-mail naar inge.angevaare@kb.nl - dan zal ik je in contact proberen te brengen met de mensen met de antwoorden.; 19 juni 2011 om 15:53

Een reactie posten