Publicatie:Data modelleren & classificaties

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

In dit artikel gaan we dieper in op het modelleren van data. Vervolgens bespreken we het belang van het classificatiesysteem van een ontologie en de impact die dit systeem heeft op het modelleren van de data.


Referentie
Titel Data modelleren & classificaties (Voorkeurstitel)
Locatie META nummer 2023/7
Uitgever
Jaar van uitgave 2023
Rechten CC-BY-SA
Persistent ID


Auteur

Astrid Vergauwe (meemoo, Vlaams instituut voor het archief)

Inleiding

Cultureelerfgoedorganisaties, zoals archieven en bibliotheken, zetten steeds meer in op het uitwisselen, publiceren en het optimaal doorzoekbaar maken van data. Om gegevens te combineren en verrijken met andere (internationale) datasets, zijn goede afspraken nodig. Die afspraken worden vastgelegd in datastandaarden en ontologieën. Zij zorgen voor context, samenhang en een betere uitwisselbaarheid van data. Het gebruik van datastandaarden en ontologieën is dus noodzakelijk.

Omdat binnen de cultureelerfgoedsector diverse standaarden (zoals Records in Context of LRMoo) gebruikt worden voor het registreren van gegevens, is in vele gevallen een datamapping en -modellering nodig om de data uit de gegevensbronnen te transformeren naar het vocabularium van de gewenste standaard.

In dit artikel gaan we dieper in op het modelleren van data. Vervolgens bespreken we het belang van het classificatiesysteem van een ontologie en de impact die dit systeem heeft op het modelleren van de data.

Wat verstaan we onder 'datamodellering'?

Het modelleren van data is het proces waarbij een gestructureerde representatie wordt gemaakt van gegevens die in een informatiesysteem beheerd en bewaard worden. Hierdoor krijg je inzicht in de onderlinge ordening, de relaties en de eigenschappen van deze gegevens.

Die gestructureerde representatie krijgt de vorm van een conceptueel model, een netwerk of een graaf die de gegevens en hun onderlinge verbanden nauwkeurig weergeeft. Dit volgt de principes van linked open data. De graaf wordt opgebouwd aan de hand van het vocabularium van een ontologie, die op zijn beurt bestaat uit entiteiten en eigenschappen. Een entiteit is een knooppunt in een ontologie. Eigenschappen verbinden entiteiten met elkaar. Zo ontstaat een netwerk: de graaf.

Na de modellering zet je de data om in een code die ze leesbaar maakt voor machines, bv. door gebruik te maken van een technisch, semantisch formaat zoals JSON-LD. Dit omzettingsproces noemt men serialisatie.

Wat is het classificatiesysteem van een ontologie?

Binnen een ontologie worden alle entiteiten op basis van hun overeenkomst in eigenschappen ingedeeld in klassen. Klassen vertegenwoordigen vaak abstracte concepten of categorieën binnen een bepaald kennisdomein. Voorbeeld: de ontologie LRMoo omvat klassen zoals "Work", "Expression" en "Serial Work" . Die klassen worden op hun beurt hiërarchisch ingedeeld in superklassen en subklassen. In het geval van bovenstaand voorbeeld, is de klasse “Serial Work” een subklasse van “Work”. Naargelang de plaats van een entiteit binnen het hiërarchisch systeem, kan ze één of meerdere superklasse(n) of meerdere subklasse(n) hebben of kan zelf een sub- of superklasse zijn. De ordening van entiteiten in een dergelijk hiërarchisch schema, noemen we classificatiesysteem of de classificatie van een ontologie.

Waarom moeten we rekening houden met de classificatie tijdens de datamodellering?

De classificatie bepaalt in grote mate hoe je data moet vormgeven volgens de logica van een ontologie. Ze stipuleert de spelregels van het modelleren. Deze regels zijn leidend, want enkel zo is het mogelijk om de gegevens accuraat te mappen naar een representatieve graaf.

Hoe gaat dat in zijn werk? Aan iedere entiteit zijn er eigenschappen toegekend. Tijdens het modelleren van data, mogen aan een subklasse ook de eigenschappen van zijn superklasse(n) toegekend worden want tussen een superklasse en een subklasse bestaat een "is een"-relatie. Als voorbeeld nemen we de entiteit “GecureerdeCollectie” en de entiteit "Collectie" uit de standaard OSLO Cultureel Erfgoed. In dit geval is een “GecureerdeCollectie” een subklasse van de entiteit “Collectie”. De entiteit “GecureerdeCollectie” kan en mag alle eigenschappen overnemen van “Collectie” want een gecureerde collectie is in feite een type collectie (zie documentatie). Kortom, een subklasse mag de eigenschappen van zijn superklasse(n) gebruiken of 'lenen'.