Publicatie:Linked Open Data publicatie met Wikidata

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

Het project Linked Open Data publicatie met Wikidata maakt de identificatiegegevens van de kunstwerken uit zeven musea beschikbaar als Linked Open Data (LOD) met behulp van het Wikidata-platform. Op die manier wordt de informatie in Wikidata verder verrijkt, zijn alle kunstwerken in de zeven musea vindbaar in Wikidata en hebben de musea een krachtig instrument om gebruikers van Wikipedia te betrekken bij de verder ontwikkeling van hun collectiedata.. Dit project onderzoekt of de infrastructuur die de Wikidata gratis ter beschikking stelt, door musea gebruikt kan worden om hun opendatabeleid in de praktijk te brengen en hun collectiedata als Linked Open Data te publiceren zonder daarvoor zware IT-investeringen te doen.

Dit project werd uitgevoerd door PACKED-medewerkers Bert Lemmens, Alina Saenko en Barbara Dierickx. Wegens de specificiteit van de Wiki-gemeenschap (community, platformen, technische know-how) werkten ze in onderaanneming samen met Sandra Fauconnier, en op vrijwillige basis met Maarten Dammers. Beiden brachten de nodige ervaring en info over Wiki-processen in het project binnen.

Het hele project werd uitgevoerd in de periode oktober 2015 - januari 2016.


Referentie
Titel Linked Open Data publicatie met Wikidata (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2016
Rechten CC-BY-SA
Persistent ID


Auteur(s)

  • Bert Lemmens (PACKED)
  • Alina Saenko (PACKED)
  • Pieter De Praetere (PACKED)
  • Barbara Dierickx (PACKED)

Partners

  • VKC, KMSKA, MSK Gent, Groeningemuseum,
  • CAHF, M HKA, Middelheimmuseum, S.M.A.K., Mu.ZEE,
  • LUKAS,
  • Collectie Vlaamse Gemeenschap
  • M - Museum Leuven
  • Wikimedia Nederland, Wikimedia Belgie

Projectverloop

Dit project maakt deel uit van het Persistente identificatie en open cultuur data (2015). Het project werd gerealiseerd met steun van de Vlaamse overheid. De resultaten van dit deelproject werden gepresenteerd aan de partners in januari 2016 en gedetailleerd beschreven in het eindrapport:

Doelstelling

Dit project bouwt verder op de resultaten van het project ‘Hoe wordt ik data-uitgever?’ (2014-2015) en maakt de identificatiegegevens van de kunstwerken uit het PID-voortraject (en die van enkele andere partners) beschikbaar als Linked Open Data (LOD) met behulp van het Wikidata-platform. Q-nummers uit Wikidata, i.e. persistente URI’s voor items die beschreven worden door de Wikipedia-gemeenschap, werden in het eerste project, ‘Persistente Identificatie’ (2013-2014), gebruikt om kunstenaars die een pagina hebben in Wikipedia persistent te identificeren. In dit deelproject stroomt een deel van de collectiedata terug naar Wikidata, met name de persistente URI’s van de kunstwerken van deze kunstenaars die in de zeven bovenvermelde musea hangen. Op die manier wordt de informatie in Wikidata verder verrijkt, zijn alle kunstwerken in de zeven musea vindbaar in Wikidata en hebben de musea een krachtig instrument om gebruikers van Wikipedia te betrekken bij de verder ontwikkeling van hun collectiedata..
Dit project onderzocht of de infrastructuur die de Wikidata gratis ter beschikking stelt, door musea gebruikt kan worden om:

  • hun opendatabeleid in de praktijk te brengen;
  • hun collectiedata als Linked Open Data te publiceren zonder daarvoor zware IT-investeringen te doen.

Methodologie

Dit deelproject werd uitgevoerd door PACKED-medewerkers Bert Lemmens, Alina Saenko en Barbara Dierickx. Wegens de specificiteit van de Wiki-gemeenschap (community, platformen, technische know-how) werkten we in onderaanneming samen met Sandra Fauconnier, en op vrijwillige basis met Maarten Dammers. Beiden brachten de nodige ervaring en info over Wiki-processen in het project binnen.

Actie 1. White paper open data beheer in Wikidata

In samenwerking met projectmedewerker Sandra Fauconnier werd een Whitepaper opgemaakt en tijdens de eerste stuurgroep voorgesteld aan de projectpartners. Deze paper werd ook vertaald naar het Engels ter verspreiding in de bredere Wiki-gemeenschap. De paper bestaat uit drie hoofdstukken:

  • introductie tot de Wikimedia-beweging en de projecten Wikipedia en Wikidata;
  • omschrijving van de business case om kunstwerken te documenteren in Wikidata voor respectievelijk de musea, de Wikimedia-gemeenschap en de samenleving;
  • een crosswalk die weergeeft hoe collectiedata in het datamodel van Wikidata wordt gemapt.

De conclusie van deze white paper bevat een sterkte-zwakte analyse van het gebruik van Wikidata voor het beschikbaar stellen van collectiedata op het web. Het document diende als introductiemateriaal voor de projectpartners in dit deeltraject. Op basis van deze paper werd ook een inleidende screencast gemaakt, die kort uitlegde wat er in het project zou gebeuren en hoe dit alles in zijn werk zou gaan.

Actie 2. Open data publicatie van de CSV dataset

De datasets die als resultaat van het project Persistente Identificatie gecreëerd werden, konden gebruikt worden als importset voor dit deeltraject. Het ging om informatie m.b.t. de eigenlijke objecten uit de museumcollectie, de persistente links die daaromtrent gecreeërd werden, de vervaardigers van de objecten en de objecttypes. Het doel was deze (zeer feitelijke) data op Wikidata te publiceren als open data. Dit betekende dat de deelnemers hun akkoord moesten geven over het vrijgeven van de informatie onder een CC0-licentie. Om dit te bewerkstelligen werd een samenwerkings- en datagebruiksovereenkomst afgesloten met elk van de partners. Deze werden uiteindelijk ondertekend door de volgende instellingen: CVG, VKC, KMSKA, S.M.A.K., Groeningemuseum, MSKGent, MuZEE en M Leuven.

Actie 3. Workshop en stuurgroep I

De eerste Stuurgroep van dit deelproject werd gehouden op 28 oktober 2015. Naast de projectpartners en PACKED-medewerkers was ook Sandra Fauconnier aanwezig. De volgende zaken werden besproken:

  • voorstelling projectplanning en stappen;
  • voorbeeld van de benodigde elementen in de aan te leveren dataset(s);
  • toelichting bij gebruik van CC0-licentie en wat de publicatie als ‘open data’ zou impliceren
  • voorstelling van de whitepaper, en mogelijkheid tot feedback;
  • illustratie van de mogelijkheden voor hergebruik op basis van data die tot het Wikidata-platform behoort.

De workshop markeerde ook meteen de start van de uploadprocedure van de aangeleverde data in het Wikidata-platform.
De presentatie van de workshop is op CEST te vinden: Workshop 1 "Wat is Wikidata?" 28/10/2015

Actie 4. Upload CSV-dataset in Wikidata

PACKED vzw contacteerde daartoe Maarten Dammers (Wikidata-vrijwilliger) om afspraken te maken rond de praktische uploadprocedure. Sandra Fauconnier coördineerde het uploadwerk en voerde manueel enkele correcties/verrijkingen door.

De aangeleverde data werd voorafgaand aan de upload nog op een paar manieren bewerkt. Zo werd er onder andere gekeken:

  • of alle werken in de lijst wel voldoende ‘notable’ waren: items zoals (alledaagse) gebruiksvoorwerpen horen niet thuis op Wikidata; religieuze gebruiksvoorwerpen werden om die reden bv. weerhouden uit de up te loaden set van M Leuven;
  • of de aanwezige ‘creators’ in de lijst nog beter verrijkt en gelinkt konden worden, en of zij al een eigen pagina hadden binnen Wikidata;
  • of de aanwezige ‘objecttypes’ konden gemapt worden naar de types die binnen Wikidata gangbaar zijn.

De eigenlijke upload gebeurde in grote mate door het programmeren van een bot; een programma dat automatische nieuwe Wikidata-records aanmaakt op basis van de aangeleverde data, of reeds bestaande records aanvult met deze data. Op die manier kon meteen snel en in grote getale informatie worden toegevoegd aan het platform.
Een up-to-date overzicht van de resultaten van de upload kan men in de tabel op de ovezichtspagina van het project op Wikidata terugvinden.

Actie 5. RDF-export uit Wikidata

De gepubliceerde data kan op drie verschillende manieren uit het platform geëxporteerd worden. Deze manier staan beschreven in het Handboek (zie volgend actiepunt). De projectpartners hebben met deze mogelijkheid een belangrijke troef in handen om nu semantische applicaties te gaan maken. Het eigenlijke maken van de export wordt overgelaten aan de projectpartners aangezien het aan hen is om echt iets met de data te gaan ‘doen’ en dus ook best kunnen bepalen welke vorm de export aanneemt.

Actie 6. Handboek open data beheer in Wikidata

PACKED vzw realiseerde i.s.m. Sandra Fauconnier een Handboek dat de projectpartners in staat stelt de opgeladen data in Wikidata zelf te beheren. Onder beheer wordt zowel het aanpassen van bestaande records, als het toevoegen van nieuwe records verstaan. Het document is in eerste instantie relevant voor collectiebeheerders, maar is ook interessant voor vrijwilligers die informatie over kunst toevoegen en aanpassen op Wikidata. Het handboek bestaat uit vier hoofdstukken.

  • Eerst wordt aangegeven hoe je bestaande data op Wikidata kan beheren (data opzoeken, aanpassen, referenties meegeven).
  • In een volgend hoofdstuk leer je hoe je nieuwe items op Wikidata kan plaatsen; zowel manueel als met de hulp van een bot (vrijwilliger), indien het bijvoorbeeld om grote hoeveelheden informatie gaat.
  • Nadien wordt bekeken hoe de data kan gebruikt worden en hoe je wijzigingen en andere gebruikers van Wikidata in de gaten kan houden. *Tot slot lees je meer over de beschikbare export(s) van Wikidata-gegevens (zie vorig actiepunt), en tonen we voorbeelden van data-toepassingen.

Het handboek bevat ook een kleine appendix met daarin enkele handige tools die je binnen Wikidata kan gebruiken, een overzicht van de mapping van door musea gebruikte objectnamen met Wikidata-termen, informatie over ‘notability’ en enkele voorbeelden van SPARQL-queries

Actie 7. Workshop en stuurgroep II

De afsluitende stuurgroepvergadering van het project had eigenlijk moeten plaatsvinden voor eind december 2015, maar gezien vertragingen in de voorgaande deelprojecten besloten we het project met één maand te verlengen. Om die reden vond de afsluitende stuugroep pas plaat op 29 januari 2015. Volgende zaken werden onder andere besproken:

  • resultaten project en upload;
  • blik op toekomstige acties en afronding data-upload;
  • voorbeelden van hergebruik/visualisaties.

Na de middag werd een workshopgedeelte voorzien, waarin de projectpartners op basis van het Handboek zelf (hun) data leerden beheren in Wikidata, enkele nieuwe records aanmaakten, bepaalde creators opzochten, afbeeldingen linkten, etc. Deze workshop (en stuurgroepvergadering) vond plaats onder begeleiding van Sandra en Maarten, zodat er ook mogelijkheid was tot vragen stellen over het hele projecttraject.
De presentatie van de workshop is op CEST te vinden: Workshop 2 "Collectiedata op Wikidata beheren" 29/01/2016

Conclusies en aanbevelingen

Uploadcijfers


1. Data publicatie op Wikidata Op 29 januari 2016 stonden er 26.680 kunstwerken uit de partnermusea op Wikidata. In vergelijking: in oktober 2015, aan het begin van het project, waren dat er 65. Die 26.680 kunstwerken zijn gemaakt door 3.615 kunstenaars en daarvan zijn enkele honderden kunstenaars door dit project nieuw op Wikidata ingevoerd. Er werden 399 verschillende objectnamen uit de partnercollecties gemapt met begrippen op Wikidata: van acrylschilderij tot zwart-witfoto. Dit totale aantal opgeladen werken representeert nog niet alle aangeleverde informatie. Zo zijn er bv. nog werken van S.M.A.K. opgeladen na de stuurgroep (29/1/2016).
Een up-to-date overzicht van de resultaten van de upload kan men in de tabel op de ovezichtspagina van het project op Wikidata terugvinden.

2. Werkplan controle en vervollediging data op Wikidata Na het formele einde van het project moeten er nog een aantal acties ondernomen worden. Samen met Sandra en Maarten plant PACKED vzw nog enkele uploads die mappings moeten actualiseren, werk aan het koppelen van delen met gehelen (bv. triptiek), aanvullen van informatie rond creators, …. Na afloop van het project werd hiervoor een werkplan gemaakt om de gepubliceerde data te controleren en te vervolledigen. Dit werkplan omvat de volgende acties:

  • correcties in de mapping van persistente URI’s;
  • upload data SMAK, M HKA, VKC en CVG;
  • koppeling van items die één kunstwerk vormen (bv. diptieken, reeksen);
  • controle materialen;
  • controle dateringen;
  • toevoegen van rollen voor vervaardigers;
  • vervolledigen handboek;
  • update projectpagina op Wikidata
  • activeren van (dode) persistente URI’s (cf. Resolvers).

Streefdatum om dit werkplan af te werken is eind juni 2016. Partners dienen vanaf dan zelf informatie over nieuwe aanwinsten in hun collectie opnemen in Wikidata.

3. Publicatie werkmaterialen De materialen die in dit project zijn aangemaakt - vaak lijvige documenten zoals bv. de Whitepaper en het [Handboek] - worden in de komende weken integraal vertaald naar het Engels en online raadpleegbaar gemaakt via de projectpagina op Wikidata (de Whitepaper is op dit moment al in het Engels beschikbaar). Op die manier kan de ervaring die opgedaan werd in dit ‘regionale’ project een model van aanpak vormen voor andere musea die op een gelijkaardige wijze willen te werk gaan en wordt de impact ervan significant vergroot.

Contactgegevens

Bert Lemmens
meemoo, Vlaams instituut voor het archief
Kleindokkaai 9a, 9000 Gent
E: bert.lemmens@meemoo.be
T: ++32 (0)9 298 05 01


Alina Saenko
meemoo, Vlaams instituut voor het archief
Kleindokkaai 9a, 9000 Gent
E: alina.saenko@meemoo.be
T: ++32 (0)9 298 05 01


Barbara Dierickx
PACKED vzw
Delaunoystraat 58 #23, 1080 Brussel
barbara@packed.be
++32 (0)2 217 14 05