Publicatie:Linked Data Fragments
Culturele organisaties die hun data beschikbaar willen maken als linked data botsen al snel op het kostenplaatje van de systemen die ze daarvoor nodig hebben. Weinig collectiebeheersystemen hebben zelf de mogelijkheid om hun data als linked data beschikbaar te maken. Dus moeten organisaties hiervoor afzonderlijke servers en applicaties inrichten. Een aspect dat daarbij heel erg doorweegt op de kostprijs (én de performantie) is de wijze waarop je linked data doorzoekbaar maakt via het web.
Titel | Linked Data Fragments (Voorkeurstitel) |
Locatie | META nummer 2019/5 |
Uitgever | |
Jaar van uitgave | 2019 |
Rechten | CC-BY-SA |
Persistent ID |
Auteurs
- Sam Donvil (PACKED vzw / VIAA)
- Bert Lemmens (PACKED vzw / VIAA)
Linked Data Fragments
Culturele organisaties die hun data beschikbaar willen maken als linked data botsen al snel op het kostenplaatje van de systemen die ze daarvoor nodig hebben. Weinig collectiebeheersystemen hebben zelf de mogelijkheid om hun data als linked data beschikbaar te maken. Dus moeten organisaties hiervoor afzonderlijke servers en applicaties inrichten. Een aspect dat daarbij heel erg doorweegt op de kostprijs (én de performantie) is de wijze waarop je linked data doorzoekbaar maakt via het web.
De klassieke manier om dat te doen is via een zogenaamde SPARQL-endpoint waarmee je de volledige dataset live kan doorzoeken. Dat vereist echter veel rekencapaciteit, en dus een krachtige en dure webserver. De goedkoopste oplossing om je linked data set doorzoekbaar te maken, is de dataset als een downloadbestand aan te bieden, en zo de werklast en kosten van het eigenlijke zoekwerk door te schuiven naar de gebruiker. Linked Data Fragments is een alternatieve methode die probeert de kosten en werklast van het doorzoeken van linked data sets evenwichtiger te verdelen tussen de aanbieder en de gebruiker. De oplossing bestaat erin om enerzijds webservers eenvoudiger en dus goedkoper te maken, en anderzijds slimmere gebruikersapplicaties te maken die een deel van het zoekwerk kunnen doen.
Het eerste deel van de oplossing bereik je door linked data sets op te delen in kleinere Triple Pattern Fragments. Dat zijn subsets van je linked data set waarvan de triples een gelijkaardige opbouw hebben. Hierdoor wordt het aantal triples dat je moet doorzoeken kleiner en eenvormiger. Je bepaalt zelf hoe je de dataset opdeelt, bv. opdelen als triples over een bepaald onderwerp. Een Triple Pattern Fragment creëert eigenlijk een specifieke zoekingang op je collectiedata. Elk fragment dien je ook te voorzien van metadata over het aantal triples in het fragment, en over hoe de triple is opgebouwd.
Het tweede deel van de oplossing bestaat erin dat je een slimme gebruikersapplicatie hanteert die metadata over de opbouw van de triple gebruikt om een slimme zoekstrategie op te zetten. Dat doet ze door een complexe SPARQL-query op te splitsen in kleinere zoekacties, en vervolgens het fragment te selecteren waarmee ze de zoekactie kan uitvoeren. Door ze te voeren aan een Triple Pattern Fragments server kan een complexe SPARQL-zoekvraag in verschillende stapjes worden opgelost.
Wat is het voordeel van Linked Data Fragments?
Bij de klassieke manier van werken met een SPARQL-endpoints gebeurt het verwerken van de zoekvragen op serverniveau. De servers bereiken echter al snel hun maximumcapaciteit, en worden bijgevolg tijdelijk onbeschikbaar. Dat probleem van serveronbeschikbaarheid wordt groter wanneer je van verschillende servers tegelijk data opvraagt. Het schaalbaar maken van het semantische web is dus een architecturaal probleem dat opgelost kan worden door het gebruik van Linked Data Fragments.
Wat heb je nodig om met Linked Data Fragments aan de slag te gaan?
Deze oplossing vereist dat zowel de aanbieder als de gebruiker van linked data specifieke tools gebruiken. Als culturele organisatie moet je je linked data set opdelen in fragmenten en die aanbieden via een Triple Pattern Fragments server. Dat is een webserver die je linked data set niet als een monolithische dataset aanbiedt, maar in kleinere fragmenten die bevraagbaar zijn. Daarvoor zijn verschillende tools beschikbaar naargelang de gewenste programmeertaal. Een overzicht van de software vind je op http://linkeddatafragments.org/software. Zo’n Triple Pattern Fragments server kan fragmenten maken door data uit een SPARQL-endpoint te halen. Maar hij kan ook fragmenten maken op basis van JSON-LD-documenten die je gemaakt hebt.
Ook om de gebruikersapplicatie te bouwen zijn er verschillende tools beschikbaar naargelang de gewenste programmeertaal. Een overzicht van de tools vind je ook op http://linkeddatafragments.org/software/. Met die tools kan je een zoekinterface bouwen die eerst je zoekvraag omzet in een SPARQL-query, ze dan opdeelt in kleinere zoekacties en ze vervolgens doorstuurt naar de Triple Pattern Fragments server die het relevante linked data fragment bevat.
Wat is de relevantie van Linked Data Fragments voor bibliotheken, archieven en documentatiecentra?
Bibliotheken, archieven en documentatiecentra kunnen hun collectiecatalogus op een performante manier als linked data aanbieden met een Triple Pattern Fragments interface. Bijvoorbeeld VIAA gebruikte Linked Data Fragments om een grote verzameling gedigitaliseerde kranten uit de Eerste Wereldoorlog te publiceren als linked data.