Publicatie:Getty Vocabularies: LOD

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


Samenvatting

Om collectiedata doorzoekbaar te maken dient men de gegevens mbv een specifieke thesaurus te normaliseren – een tijdrovende en foutgevoelige taak. Vaak moet je manueel de juiste schrijfwijze van een term opzoeken en deze handmatig overnemen in je collectiebeheersysteem. Bovendien worden thesauri alsmaar uitgebreid en geactualiseerd, waardoor je al snel het risico loopt om met een verouderde lijst van termen te werken. Wat als je daarbovenop je collectiedata van bijkomende contextuele informatie wilt voorzien? Moet het altijd zo arbeidsintensief zijn of zouden Linked Open Data thesauri het werk kunnen vereenvoudigen?


Referentie
Titel Getty Vocabularies: LOD (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2015
Rechten CC-BY-SA
Persistent ID


Startpagina van het Getty Vocabularies LOD portaal.

Getty Vocabularies: LOD

Om collectiedata doorzoekbaar te maken dient men de gegevens mbv een specifieke thesaurus te normaliseren – een tijdrovende en foutgevoelige taak. Vaak moet je manueel de juiste schrijfwijze van een term opzoeken en deze handmatig overnemen in je collectiebeheersysteem. Bovendien worden thesauri alsmaar uitgebreid en geactualiseerd, waardoor je al snel het risico loopt om met een verouderde lijst van termen te werken. Wat als je daarbovenop je collectiedata van bijkomende contextuele informatie wilt voorzien? Moet het altijd zo arbeidsintensief zijn of zouden Linked Open Data thesauri het werk kunnen vereenvoudigen?

Gegevens uit een thesaurus die als Linked Open Data (LOD) beschikbaar zijn, kunnen veel gebruiksvriendelijker geïmplementeerd worden: de data is goed gestructureerd, ieder concept heeft een persistente link (URI), de data wordt systematisch geactualiseerd en is onder een open licentie vrij herbruikbaar. LOD is tot recent echter vooral een zaak geweest van crowdsourcing standaardterminologieën zoals DBpedia en Geonames. Zulke thesauri zijn vaak erg groot van omvang maar hebben niet genoeg wetenschappelijke autoriteit zoals de klassieke thesauri, waar de erfgoedsector vragende partij voor is.

The Getty Institute

In het najaar van 2014 werden de twee bekendste thesauri van The Getty Institute – The Art & Architecture Thesaurus (AAT) en The Getty Thesaurus of Geographic Names (TGN) – als LOD via het Getty-portaal online beschikbaar gemaakt. Op dit portaal wordt daarbij een SPARQL Endpoint aangeboden: een web-service waar je grootschalige en ingewikkelde zoekopdrachten kan uitvoeren en de resultaten gestructureerd kan terugkrijgen. Daarnaast is het ook nog altijd mogelijk om de volledige dataset te exporteren en in je eigen systeem te verwerken.

Deze vernieuwingen maken het mogelijk om:

  • termen semiautomatisch uit een thesauri over te nemen door bv. live in AAT vanuit je collectiebeheersysteem zoekopdrachten uit te voeren en mbv een autocomplete functie suggesties van termen te verkrijgen bij het beschrijven van een object;
  • updates van al gebruikte concepten en gegevens live en automatisch in je collectiebeheersysteem binnen te halen door een link te leggen tussen je eigen data en de Getty Vocabularies. Een link leggen kan je door een persistente URI van een concept in je eigen data mee op te nemen. Via zo’n link kan je systeem de SPARQL Endpoint aanspreken voor updates;
  • gerichte ingewikkelde zoekopdrachten uit te voeren op de data uit de thesauri en zo meer context te krijgen over gebruikte concepten. Met behulp van de persistente URI van een term kan je vanuit Open Refine[1], je collectiebeheer- of CMS-systeem de SPARQL Endpoint aanspreken en vragen stellen (in SPARQL zoektaal) die voor jou relevant zijn. Zoals bijvoorbeeld: ‘Zoek een bepaalde term adhv de persistente URI en geef me alle vertalingen terug’. Je kan het resultaat terugkrijgen in een formaat dat je eigen systeem zal begrijpen en kunnen verwerken: TML, RDF/XML, JSON enz.

De publicatie van AAT en TGN als Linked Open Data creëert de mogelijkheden voor een automatische maar gecontroleerde overname van gestandaardiseerde concepten en contextuele gegevens in je beschrijvingen dat voor een snellere, betere en meer correcte manier van werken zorgt. Je maakt daarmee je data niet louter beter doorzoekbaar, maar voorziet ook meertaligheid en rijke inhoudelijke context.

Dit artikel werd geschreven door Alina Saenko (PACKED-medewerker) en verscheen in META 2015/5 in de reeks Uitgepakt.

  1. http://openrefine.org/ Zie ook artikel Open Refine – een tool voor data-cleaning