Publicatie:Hoe publiceer je een rekenblad of dataset met heemkundige informatie op Wikidata?

From Cultureel Erfgoed Standaardentoolbox
Jump to navigation Jump to search


Samenvatting

Heemkundige kringen bewaren vaak heel wat informatie over lokaal erfgoed in rekenbladen. Door die informatie zowel makkelijk leesbaar te maken voor andere personen en computers als makkelijk vindbaar en downloadbaar te maken kan dat werk door een groter publiek gebruikt en gewaardeerd worden. Een goed begin is je rekenbladen op je eigen website downloadbaar te maken. Maar via Wikidata kun je vervolgens gemakkelijker delen én kunnen bovendien anderen je informatie verder aanvullen. Deze handleiding legt aan de hand van voorbeelden uit de heemkundige praktijk en het Karrenmuseum uit hoe je informatie via Wikidata gemakkelijk kunt delen en hoe anderen je informatie verder kunnen aanvullen. Dit kan ook nuttig zijn voor andere culturele organisaties, aangezien zij ook vaak informatie in rekenbladen bewaren die ruimer ter beschikking kan gesteld worden.


Referentie
Titel Rekenblad of dataset op Wikidata publiceren (Voorkeurstitel)

Hoe publiceer je een rekenblad of dataset met heemkundige informatie op Wikidata? (Alternatieve titel)

Locatie Bladwijzer 22 (december 2017)
Uitgever
Jaar van uitgave 2018
Rechten CC-BY-SA
Persistent ID


Auteur

Sam Donvil (PACKED vzw), met de medewerking van Bert Lemmens (PACKED vzw) en Rony Vissers (PACKED vzw)

Open data

Als voorbeeld nemen we een eenvoudige termenlijst die een typologie voor historische rijtuigen bevat. De typologie werd opgesteld door het Karrenmuseum (Essen), die ze ook op haar website publiceert. We tonen hoe je die typologie voor een groter, internationaal publiek vindbaar kunt maken en hoe ook zoekmachines haar sneller terugvinden. Daarvoor gebruiken we een webplatform waar vandaag de meeste vrij beschikbare data vindbaar en herbruikbaar wordt gemaakt: Wikidata.

Het Karrenmuseum bewaart en onderzoekt allerhande karren, wagens en koetsen. In 2017 inventariseerde het museum met steun van de Vlaamse overheid in de context van een onderzoeksproject 122 historische rijtuigen. Alle rijtuigen werden uitvoerig beschreven in een Excel-rekenblad.

Historische voertuigen in vlaanderen.jpeg


Daarnaast werd op basis van die dataset een typologie voor rijtuigen opgesteld.[1] Een selectie van de basiskenmerken is opgenomen in hun online databank; de volledige onderzoeksresultaten worden op de website aangeboden in de vorm van een rekenblad. Personen die het Karrenmuseum kennen, vinden nu de volledige inventaris en de rijtuigentypologie terug op de website van het Karrenmuseum.

Onderzoeksprojecten karrenmuseum.jpeg


Naast het verzekeren van de toegankelijkheid tot je data, verhoog je door het publiceren van de data op je website de duurzaamheid van je werkzaamheden. De data kunnen dan immers door andere geïnteresseerden worden gedownload en opgeslagen, met als gevolg dat ze niet langer lokaal, op één plaats bewaard worden. Dat vergroot de kans dat je data in de toekomst beschikbaar zullen blijven. Omdat andere geïnteresseerden niet noodzakelijk de weg naar jouw website vinden, zul je echter door de publicatie van je data op je eigen website waarschijnlijk maar een beperkt aantal mensen bereiken, en dat is zonde van je werk!

Wikidata

Om een grotere groep geïnteresseerden te bereiken, zul je je informatie ook vindbaar moeten maken op andere websites, die een groter en internationaler publiek bereiken. Bijgevolg zullen ook zoekmachines je informatie dan hoger plaatsen in de oplijsting van hun zoekresultaten. Een website met een groot publiek waarop je vrij informatie kunt delen is Wikipedia. Maar rekenbladen zijn niet geschikt voor een online encyclopedie. Rond Wikipedia bestaat echter nog een reeks andere platformen waar je ook informatie kunt delen. Eén daarvan kan heel goed met gestructureerde data overweg: Wikidata.

Wikidata is een gezamenlijk bewerkte databank, die net als Wikipedia en een aantal andere online platformen is gecreëerd door de Wikimedia Foundation met als doel kennis op een vrije en neutrale manier te verzamelen en te verspreiden. Het is een gratis databank die met minimale technische kennis gebruikt kan worden. In tegenstelling tot jouw website, kent Wikidata al een bestaande gebruikersgemeenschap en is de databank al verbonden met andere platformen in het Wikimedia-ecosysteem, zoals de online encyclopedie Wikipedia en de beeldbank Wikimedia Commons. Platformen als Wikidata, Wikipedia en Wikimedia Commons staan met elkaar in verbinding. Een artikel op Wikipedia is gekoppeld aan een Wikidatarecord en elk Wikidatarecord kan gekoppeld worden aan een beeld op Wikimedia Commons. Die beelden kunnen ook als illustratiemateriaal in Wikipedia-artikels gebruikt worden.

Data en content uit het Wikimedia-ecosysteem is zeer gemakkelijk vindbaar. Wikipedia-artikels verschijnen steevast hoog in de zoekresultaten van Google. Ook trekt Google in de rechterbovenhoek van de overzichtspagina met zoekresultaten vaak inhoud uit Wikimediaplatformen (content, data en beelden). Maar ook bijvoorbeeld Apple’s personal assistant applicatie Siri trekt inhoud uit Wikidata. Data op Wikidata kunnen ook de basis vormen van nieuwe Wikipedia-artikels. Ook steeds meer culturele instellingen beginnen met Wikidata informatie (bijvoorbeeld biografische informatie over schrijvers, componisten en beeldende kunstenaars) uit Wikipedia binnen te trekken in hun eigen website.[2]

Het publiceren van je data op Wikidata draagt niet enkel bij aan het duurzaam, vindbaar en toegankelijk maken van je data, het maakt ook mogelijk dat anderen je data kunnen aanvullen. De Wikimediaplatformen worden immers permanent onderhouden en uitgebreid door een gemeenschap van vrijwilligers met diverse interessevelden. Zoals we later zullen zien, is er bovendien een reële kans dat er op die Wikimediaplatformen al data en beelden bestaan die thematisch in het verlengde liggen van je eigen dataset.

Van rekenblad naar Wikidata

Maar hoe begin je zelf een databank als Wikidata te gebruiken? We overlopen de stappen aan de hand van het voorbeeld van een rijtuigentypologie van het Karrenmuseum.

Rekenblad rijtuigen van het Karrenmuseum


Laten we beginnen met de data. Het is belangrijk te weten dat de Wikimediaplatformen hun eigen doelstellingen, en bijgevolg ook hun eigen selectiecriteria hebben. Een databank als Wikidata zal dus nooit je eigen collectiebeheersysteem kunnen vervangen. Daarom kiezen we ervoor om enkel de rijtuigentypologie in Wikidata op te laden, en niet de volledige inventaris van 122 historische rijtuigen. Het opladen van de data gebeurt in vijf stappen.

Stap 1: controleer of de term in Wikidata staat

We controleren eerst welke typologieën al op Wikidata bestaan en voegen die toe in een nieuwe kolom in het Excel-rekenblad naast de Nederlandstalige types. Om dat te doen typen we op www.wikidata.org bijvoorbeeld 'berline' in de zoekbalk bovenaan. Die zoekterm geeft naast resultaten over personen en plaatsen ook een resultaat voor een type rijtuig. Let dus goed op dat je het juiste record gevonden hebt.

Wikidata zoekopdracht voor 'berline'

Stap 2: voeg een label en een beschrijving toe

Zoals alle andere Wikidatarecords bestaat ook het Wikidatarecord over het voertuig ‘berline’ uit zogenaamde statements (verklaringen) waarin het item beschreven wordt aan de hand van eigenschappen of properties die gelinkt kunnen worden aan andere items of waardes. Alle Wikidatarecords hebben een uniek identicatienummer (een Q-nummer), en alle Wikidataproperties ook (een P-nummer).

Toevoegen labels bij Wikidata item 'berline'


We stellen vast dat de Nederlandstalige beschrijving ‘koets’ eerder summier is in vergelijking met de Engelstalige beschrijving ‘type of covered, fast and light, four-wheeled, travelling horse carriage with two interior seats and a separate hooded rear seat for a footman, detached from the body’. Gelukkig bevat onze eigen dataset een mooie Nederlandstalige beschrijving. We kunnen de beschrijving in Wikidata aanpassen door op ‘bewerken’ te klikken en onze eigen beschrijving toe te voegen.

We moeten echter een deel van de tekst schrappen aangezien een beschrijving slechts 250 karakters lang mag zijn. Aangezien we naast Nederlands ook Engels spreken, brengen we de twee beschrijvingen met elkaar in overeenstemming. De Nederlandse beschrijving wordt ‘Snel en licht vierwielig rijtuig, volledig symmetrische en gesloten bovenbouw met twee deuren, twee in de rijrichting tegenover elkaar geplaatste zitbanken voor vier personen met aan de voorzijde een aparte hogere bok met twee zitplaatsen’. Wellicht zal een andere Wikimediabewerker, die naast Engels of Nederlands wel vlot Frans of Duits spreekt, onze beschrijving of de verbeterde Engelstalige beschrijving kunnen vertalen.

Toevoeging beschrijving bij het type 'berline'


Het Karrenmuseum stelde voor elk type ook ook een lange beschrijving op. Die past beter in een Wikipedia-artikel dan een Wikidatarecord. Tegelijkertijd zien we dat het Wikidatarecord over het voertuig ‘berline’ maar weinig informatie bevat, terwijl er in onze beschrijving meer informatie besloten zit. We knippen de beschrijving op in afzonderlijke datavelden.

Database rijtuigen berline 2.jpeg

Stap 3: voeg trefwoorden toe

We kunnen deze data zowel individueel per Wikidatarecord toevoegen als in de vorm van een voorbereide dataset automatisch aan Wikidata toevoegen. Het toevoegen gebeurt in de vorm van zogenaamde semantic triples, een drieledige structuur bestaande uit een subject, predicaat en object. Het subject is in essentie de bron die beschreven wordt. Het predicaat duidt aan welk kenmerk of aspect van die bron beschreven wordt. Het object geeft ten slotte aan wat de waarde van dat kenmerk is. Zo kunnen we bijvoorbeeld het statement toevoegen dat de ‘berline’ een door paarden getrokken rijtuig is. In de vorm van een triple wordt dat statement: de berline (subject) is een instantie (exemplaar) van/P31 (predicaat) van voertuig getrokken door paarden/Q1112950 (object). Als we die verklaring manueel willen invoeren, klikken we rechts onder de laatste beschikbare verklaring op ‘verklaring toevoegen’. Er verschijnt een zoekfunctie waar we zowel in vrije tekst naar eigenschappen kunnen zoeken als meteen het juiste P- nummer kunnen ingeven.

Toevoeging statement bij het type 'berline'


We willen graag aangeven dat de ‘berline’ voornamelijk voor het transport van personen gebruikt werd. We voegen dus de eigenschap nummer P366 gebruik met waarde personenvervoer(Q2072431) in. Bovendien weten we uit de beschrijving ook dat het voertuig een maximumcapaciteit (P1083) van zes personen heeft. Daarnaast bevat onze beschrijving een groot aantal onderdelen. Ik voeg toe dat de ‘berline’ als onderdelen (eigenschap omvat deel P527), wielen (Q446) heeft met als specificatie aantal (P1114) met waarde vier. We voegen op dezelfde manier ook toe dat de ‘berline’ altijd twee deuren heeft en vooraan van een zitbank voorzien is (Q204776).

Stap 4: voeg een beeld toe

We merken op dat er nog geen koppeling is tussen het Wikidatarecord en de beelden in de Wikimedia Commons categorie van dit type voertuig. We voegen dus de eigenschap Commonscategorie (P373) met de naam van de categorie 'Berline carriages' toe. Op die manier staat de typologie op Wikidata nu in verbinding met de verzameling van de verschillende geüploade afbeeldingen rijtuigen. Later kunnen we hier ook onze eigen beelden aan toevoegen, op voorwaarde dat de beelden onder een vrije licentie opgeladen worden. Je kunt elk Wikidata-item ook telkens aan één representatief beeld koppelen. Aangezien dat momenteel bij de ‘berline’ nog ontbreekt, voegen we de eigenschap afbeelding (P18) toe en voegen dan de titel van de door ons gekozen afbeelding uit de Commonscategorie toe.

Toevoeging statement bij het type 'berline'

Stap 5: voeg bronvermeldingen toe

Tenslotte kunnen we bij elk toegevoegd stukje data ook een bronvermelding toevoegen. Je mag zowel naar analoge als digitale bronnen verwijzen. In ons geval kunnen we doorverwijzen naar het webadres (URL) waar de dataset van het Karrenmuseum vrijgegeven wordt: http://www.karrenmuseum.be/info-onderzoeksprojecten.aspx. Veel webadressen raken jammer genoeg in de loop van de tijd in onbruik, waardoor de koppelingen verloren gaan. Geen nood, het is namelijk mogelijk om pagina’s door de Wayback Machine van het Internet Archive te laten archiveren en die als bronvermelding toe te voegen. Wanneer we het webadres van het Karrenmuseum (http://www.karrenmuseum.be/info-onderzoeksprojecten.aspx) in de Wayback Machine ingeven, merken we dat de webpagina over de onderzoeksprojecten van het Karrenmuseum onlangs nog gearchiveerd werd. Indien dit niet het geval is, kunnen we het webadres rechtsonder op de homepage van de Wayback Machine opslaan.

Webarchivering met The Internet Archive's Wayback Machine

Het is belangrijk om de URL uit de eigen adresbalk te kopiëren en niet degene uit de onderstaande adresbalk van de Wayback Machine. Onze eigen adresbalk verwijst namelijk naar de exacte datum dat je de website gearchiveerd hebt. Dat is belangrijk omdat de website van het Karrenmuseum in de toekomst mogelijk zal veranderen.

Toevoegen van een bronvermelding bij statement


Vervolgens kunnen we onder elk statement dat we maken een bronverwijzing toevoegen. In dit geval kiezen we uit het drop-downmenu voor ‘URL (gearchiveerd)’ en plakken onze URL in het tweede tekstvak.

Ook voor het type ‘Landauer’ vinden we een Wikidata-record: https://www.wikidata.org/wiki/Q2144333. Net zoals bij de ‘berline’, vullen we daar met behulp van verklaringen de verschillende karakteristieken van dat type voertuig toe. We gaan zo verder tot we de data hebben aangevuld van alle zevenentwintig types. Het is steeds belangrijk om het juiste record te vinden. Zo bestaan er allerlei records voor de coupé-vorm voor auto’s en daarnaast ook voor specifieke modellen. We merken dat er wel al een Wikidata item bestaan voor de coupé-vorm in koetsen maar dat het vooralsnog volledig leeg is op een kort franstalig label na. Onze data kan hier dus de uitkomst bieden.

Soms bestaat er nog geen Wikipedia-artikel over een bepaald type. Van ons type ‘brik’ bestaat er in het Nederlands bijvoorbeeld enkel het artikel voor een zeilschip. Het Karrenmuseum stelde voor elk type ook een lange beschrijving op. Op basis van deze tekst en de content die al op het Engelstalig Wikipedia artikel beschikbaar is, schrijven we een nieuw Nederlandstalig artikel.

Ons nederlandstalig artikel over de 'brik'


Daarnaast zijn er veel gebruiksvriendelijke applicaties die de door ons toegevoegde data kunnen visualiseren.[3] Met de tool Wikidata Graph Builder kunnen we bijvoorbeeld door op de term 'carriage' te zoeken, alle daaraan gelinkte termen visualiseren. Hieronder zie je het resultaat voor en na de toevoeging van de data van het Karrenmuseum.[4] We zien hier dat er bij 'coach' in plaats van zes subtypes nu negen weergegeven worden.

Visualisatie voor toevoeging van Karrenmuseum types

Visualisatie na toevoeging van Karrenmuseum types

Contactgegevens

Sam Donvil: sam@packed.be

Voetnoten

  1. Voor meer informatie, zie http://www.karrenmuseum.be/info-onderzoeksprojecten.aspx, geraadpleegd op 13/03/2018
  2. Het Britse museum Tate haalt de biografische informatie over bv. de schilder James Ensor uit Wikipedia, zie http://www.tate.org.uk/art/artists/james-ensor-1060. Ook openbare bibliotheken in Brussel en Vlaanderen doen dat met biografische informatie over bv. de auteur Hugo Claus, zie bv. http://zoeken.muntpunt.bibliotheek.be/detail/Hugo-Claus/De-geruchten-roman/Boek/?itemid=%7Clibrary%2Fmarc%2Fvlacc%7C10117439. Het Antwerpse kunstencentrum deSingel haalt in drie talen de biografische informatie over bv. de componist Ludwig van Beethoven uit Wikipedia, zie https://desingel.be/nl/credit/ludwig-van-beethoven, https://desingel.be/fr/credit/ludwig-van-beethoven en https://desingel.be/en/credit/ludwig-van-beethoven.
  3. Linked data query voor carriage op de Wikidata Graph Builder: https://angryloki.github.io/wikidata-graph-builder/?property=P279&item=Q235356&iterations=7&limit=10&mode=both en linked data query voor carriage op de Wikidata Graph Builder: https://tools.wmflabs.org/wikidata-todo/tree.html?q=Q235356&rp=P279&method=d3
  4. Deze graph geeft niet alle data weer die we toegevoegd hebben maar enkel de Engelstalige labels voor die we hebben toegevoegd.