woensdag 24 augustus 2011

Linked data (3): antwoord op lezersvragen


Het is hoog tijd dat deze blog weer uit zijn zomerslaap ontwaakt, en dat doen we met een thema dat blijkens de vragen die binnenkomen actueel blijft: linked data. Eerder publiceerden we Irene Haslingers inleiding in het thema (Linked Data: wat is dat nu eigenlijk precies?). Daarop kwamen vragen, o.a. van Genoveva Leppaart. René van der Ark van de KB, die onderzoek doet op dit gebied, geeft antwoord:
lod-datasets_2010-09-22_colored
Overzicht van datasets die al opengesteld en gelinkt zijn – stand september 2010 (bron: http://wiki.dbpedia.org/About)

[NB: De software van blogger weigert dienst als we punthaken gebruiken. In onderstaande voorbeelden hebben we die vervangen door [punthaak open] en [punthaak sluit]. Minder fraai, maar dan komt de tekst tenminste op je scherm.]

Voor ik [=René] de onderstaande vragen probeer te beantwoorden moet ik eerst in zijn algemeenheid zeggen dat de eerste stap voor het bereiken van linked data bestaat uit het openstellen van bestaande data voor de buitenwereld via het internet. Het daadwerkelijke linken kan plaats gaan vinden wanneer genoeg partijen hun data open hebben gesteld (bij voorkeur in een veelgebruikt formaat zoals RDF/XML. Dit kan plaatsvinden met een simpele conversie en hoeft dus geenszins de brondata aan te tasten). Hier zit zo onderhand schot in, maar op alle vier de vragen hieronder is nog geen eenduidig antwoord te geven, omdat de discussie hierover nog volop gevoerd wordt.

1. Is het mogelijk Linked Data ook te gebruiken voor de inhoudelijke ontsluiting van bijv. artikelen uit vaktijdschriften, rapporten, boeken, krantenartikelen e.d.? Zo ja, kan je uitleggen hoe dat werkt (op hoofdlijnen)

Ja. Je kunt een open vocabulaire/thesaurus op het web gebruiken om bronnen mee te ontsluiten/verrijken. Het meest bekende voorbeeld, prominent aanwezig in de linked data ‘cloud’ is DBpedia (de wikipedia in RDF/XML formaat), dus deze zal ik voor het gemak als voorbeeld gebruiken. De meest eenvoudige manier om een object te ontsluiten is door de URL van een concept uit (bijvoorbeeld) de DBpedia toe te voegen aan de metadata van het object. Dat zou er dan ongeveer zo uit zien:

[punthaak open]dc:author rdf:resource=”http://dbpedia.org/resource/Albert_Einstein”[punthaak sluit]Albert Einstein[punthaak open]/dc:author[punthaak sluit]

De url waarnaar verwezen wordt in het attribuut blok ‘rdf:resource’ is een verwijzing naar een open data-bron waarmee je effectief ‘linked data’ hebt gecreëerd.

Het idee is dat wanneer je vervolgens de metadata van dit object als open data op het web beschikbaar stelt, andere partijen jouw object geschreven door Albert Einstein kunnen vinden in jouw data, omdat je het hebt ontsloten met het concept Albert Einstein van DBPedia. Dat werkt natuurlijk ook andersom.

Ben je al in het bezit van een eigen thesaurus waarmee objecten ontsloten zijn, dan kan het de investering waard zijn om deze thesaurus te ‘mappen’ (of ‘alignen’) met andere open data-bronnen zoals DBpedia, of, voor persoonsnamen VIAF, of, voor plaatsnamen (wereldwijd), http://geonames.org.

Dit betekent dat je een indirecte link hebt gemaakt (object - ontsloten met dc:author 123456 -  geefMeDeMappingVan(123456) - dbpedia:Albert_Einstein).

2. Het nadeel lijkt me dat je alleen relaties kan terugvinden die vooraf gemaakt (en dus bedacht) zijn. Hoe bepaal je tevoren wat de gebruiker zal willen weten en dus welke relaties je legt? Hoe ver ga je met het leggen van relaties?

Dit hangt heel erg af van de aard en bruikbaarheid van de relatie. In essentie staat elke ontsluitingsterm al in relatie met een object. Dit drukken we in de semantic web/linked data wereld uit als een ‘triple’:

publicatieID dc:author [punthaak open]http://dbpedia.org/resource/Albert_Einstein[punthaak sluit]

Bovenstaand voorbeeld is in de informatiesector in ieder geval een bruikbare relatie. Wanneer het echter om een relatie tussen concepten gaat, wordt het een stuk lastiger:

[punthaak open]http://dbpedia.org/resource/Albert_Einstein[punthaak sluit] dbpedia-owl:spouse dbpedia:Mileva_Marić

(Albert Einstein - heeft huwelijkspartner - Mileva Marić)

Maar: van wanneer tot wanneer waren ze getrouwd? Had hij meerdere vrouwen? Omdat de structuur atomair is, kun je dit soort aanvullende informatie alleen met meer ‘triples’ vastleggen.

3. Hoe kun je in een database met linked data gegevens zoeken? Is dit werk voor de (informatie)professional of kan de eindgebruiker dat ook?

Hier benoem je één van de moeilijkste problemen met semantische zoekmachines. De gemiddelde eindgebruiker, van leek tot wetenschapper, gaat niet de moeite nemen om een zoekvraag semantisch uit te splitsen naar een query die de computer begrijpt. Bovenstaand zoekvoorbeeld zou er dan versimpeld zo uit komen te zien:

Select ?pub Where {
          ?pub dc:author ?auth .
?nat skos:broader [punthaak open]http://thesaurus.org/natuurkundigen[punthaak sluit] .
?auth skos:related ?nat .
?auth hasName ‘Albert Einstein’ .
}

Als een eindgebruiker al de vaardigheden bezit om zo’n zoekvraag te formuleren, dan moet de eindgebruiker ook nog genoeg kennis hebben van de inhoud van de database om erin te kunnen zoeken. Er wordt al sinds deze technologie is bedacht, gezocht naar manieren om googleachtige zoekvragen automatisch te vertalen naar een semantische query, maar dit heeft m.i. nog weinig bruikbaars opgeleverd.

Als je echter alleen de dwarsverbanden tussen thesauri gebruikt, kun je met computers wel een hoop voorwerk doen in het uitbreiden van de kennis over een object en het dus beter ontsluiten; zij het met traditionele en niet met semantische zoektechnieken. Linked data levert dus wel degelijk wat op. Een voorbeeld is een archeologische vondst waarvan alleen de plaatsnaam van de vindplaats in de metadata stond. Als die plaatsnaam wordt gekoppeld aan de database van geonames, dan heb je geocoördinaten tot je beschikking en kun je de vindplaats tekenen op google maps - hiervoor heb je geen semantische database nodig.

4. Wie moeten de relaties gaan aanbrengen? Bibliotheken, informatiecentra en archieven, of uitgevers en/of auteurs? Hoe denk je dat dit geregeld gaat worden?

De consensus in de linked data community is dat dit proces een natuurlijk verloop zal krijgen wanneer genoeg partijen hun data openstellen zodat iedereen ermee aan de slag kan. We kunnen niet voorzien in dit stadium welke partijen kwalitatief en/of kwantitatief de beste links zullen gaan opleveren, als het automatisch gebeurt. Hier is een hoop vertrouwen voor nodig en wanneer de kritieke massa dan bereikt zal zijn, is absoluut niet in te schatten. Wel begint duidelijk te worden dat het openstellen van data in andere sectoren interessante nieuwe technologieën kan op leveren: denk aan de brandweer die gegevens van brandveiligheid vrijgeeft, gekoppeld aan de huizenwaarde in kadastergegevens - dit soort applicaties worden nu op grote schaal gemaakt dankzij het bestaan van ‘open data’.

Of dit proces zich überhaupt gaat voordoen in de informatiesector is iets waar we alleen maar naar kunnen gissen, net als of het iets oplevert voor iemand. Maar het is toch een beetje een kwestie van meegaan in de vaart der volkeren in de hoop dat er iets gebeurt.

In de toekomst is het denk ik wel zo dat bibliotheken/informatiecentra/archieven zich kunnen blijven onderscheiden met de kennis van de eigen collectie en door het faciliteren van betere vindbaarheid; het leggen van relaties tussen verschillende collecties is een onderdeel hiervan. Wie de relaties moet gaan leggen en beheren kan ik niet overzien; wel dat alleen mensen betrouwbare relaties kunnen leggen (machines doen het met een betrouwbaarheid van 80%), maar dat er voor die benodigde menskracht vaak geen budget is.

René van der Ark is projectmedewerker Innovatie & Ontwikkeling bij de Koninklijke Bibliotheek, rene.vanderark@kb.nl

Geen opmerkingen: