Publicatie:ICHICH. Naar een verhoogde toegankelijkheid van digitale tijdschriften.

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting


Referentie
Titel ICHICH. Naar een verhoogde toegankelijkheid van digitale tijdschriften. (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2023
Rechten CC-BY-SA
Persistent ID


Samenvatting

Met het project Increased Contextualisation of Humanist Intangible Cultural Heritage (ICHICH). Naar een verhoogde toegankelijkheid van digitale tijdschriften wilde CAVA, na afloop van het project Contested Content, een tweede grote stap zetten in het toegankelijker maken van zijn vrijzinnig humanistische tijdschriftencollectie. Een digitaal doorzoekbare tijdschriftencollectie biedt namelijk ongeziene kansen voor CAVA’s erfgoedwerking en voor het onderzoek naar de vrijzinnig humanistische levensbeschouwing en aanverwante thema’s.

Om die toegankelijkheid te realiseren, zette CAVA binnen dit project in op de digitalisering van een selectie van de lokale en regionale vrijzinnig humanistische tijdschriften, een samenwerking met de VUB-onderzoeksgroep Digital Mathematics (DIMA) omtrent een verbeterde extractie van de info uit de tijdschriften, de aanpak van de rechtenproblematiek en de verdere inhoudelijke ontsluiting van de tijdschriftencollectie.

Bovendien is CAVA gedreven om zijn immaterieel-erfgoedwerking verder uit te bouwen. Er leven vandaag immers heel wat gebruiken binnen de vrijzinnig humanistische gemeenschap. CAVA greep daarom maar al te graag zijn kans om binnen het kader van dit project en op basis van die meer toegankelijke tijdschriftencollectie informatie en data over die praktijken te gaan registreren. Op die manier zou CAVA een basis kunnen leggen voor een verdere werking rond immaterieel erfgoed.

In de afgelopen twee jaar (2022-2023) heeft CAVA de doelstellingen die het voor ogen had bij aanvang van het project in grote lijnen gerealiseerd. Een aantal zaken zullen in de nabije toekomst nog worden afgerond.

De breed verspreide vrijzinnig humanistische tijdschriften – gedigitaliseerd binnen het project Contested Content – en de meer lokale vrijzinnig humanistische tijdschriften kunnen door geïnteresseerden over verschillende titels heen op trefwoorden doorzocht worden. De samenwerking met DIMA zal daarenboven in de nabije toekomst mogelijkheden bieden om nog meer uit de collectie te halen. Tot slot werd er op een participatieve manier een basis gelegd om de aandacht voor vrijzinnig humanistisch immaterieel erfgoed te stimuleren en de kennis erover te vergroten.

CAVA ontving voor de uitvoering van dit project in de periode 2022-2023 subsidies van Europese overheid (EFRO/REACT EU) in het kader van de oproep ‘Inhaalbeweging digitale collectiedata’. De partners in dit project waren Meemoo, de Werkplaats Immaterieel Erfgoed (WIE) en de VUB-onderzoeksgroep Digital Mathematics (DIMA).

Auteur

Elise Dewilde en Ellen Soetens

Probleemstelling

Het Centrum voor Academische en Vrijzinnige Archieven (CAVA) draagt samen met zijn erfgoedgemeenschappen zorg voor het culturele geheugen van het vrijzinnig humanisme en de Vrije Universiteit Brussel. Dit geheugen bestaat uit analoge én digitale getuigenissen en uit zowel roerend als immaterieel cultureel erfgoed.

Binnen het ICHICH-project had CAVA volgende doelstellingen voor ogen:

  • Het op een kwaliteitsvolle manier digitaliseren van een selectie van regionale en lokale vrijzinnig humanistische tijdschriften en de resultaten op een duurzame manier opslaan.
  • Verdere stappen zetten om de toegankelijkheid tot de informatie in de, in het kader van het ICHICH-project en het project Contested gedigitaliseerde tijdschriften, onder meer via de verbetering van de optical character recognition (OCR) en lay-outanalyse, te verhogen in samenwerking met de VUB-onderzoeksgroep Digital Mathematics (DIMA).
  • De terbeschikkingstelling van die tijdschriften in de leeszaal of een IIIF-platform, rekening houdend met de rechtenproblematiek. De tijdschriften zijn ook inhoudelijk toegankelijk door de publicatie van informatie en data. Dit aanbod wordt in de kijker gezet.
  • Het in kaart brengen, documenteren en ontsluiten van informatie over vrijzinnig humanistische gebruiken samen met vrijwilligers (citizen scienceproject) op basis van de gedigitaliseerde tijdschriften in samenwerking met de Werkplaats Immaterieel Erfgoed (WIE). Met dit traject legt CAVA een basis om zijn immaterieel-erfgoedwerking verder uit te bouwen.

Status & methode

1. Digitalisering

Eind 2021 stuurde CAVA het lastenboek voor het digitaliseringsluik van het project uit. De opdracht werd reeds op 4 februari 2022 gegund. Pas in augustus 2023 konden we het digitaliseringsluik van dit project afronden. Concreet kon CAVA zo digitale representaties van 5489 tijdschriftnummers uit 128 vrijzinnig humanistische tijdschrifttitels (118 073 bladzijden) in zijn collectie opnemen.

Net zoals bij het project Contested Content doorliep CAVA daarvoor verschillende stappen:

  • Het verzamelen in een spreadsheet van gegevens over ieder tijdschriftnummer;
  • Het opstellen van een METS-voorbeeldbestand (reeds in het kader van Contested Content opgesteld);
  • Het opstellen van een lastenboek;
  • De gunningsprocedure;
  • Het doorlopen met de digitaliseringsfirma van een testfase waarbij een beperkt aantal nummers werden gedigitaliseerd;
  • Het invoegen van een barcode, gegenereerd door de digitaliseringsfirma op basis van bovenvermelde inventaris, tussen ieder nummer;
  • Het doorlopen van het digitaliseringsproces en het opvolgen en controleren ervan (controle van dagtargets, controle van tussentijdse leveringen en eindcontrole).

Een aantal van die aspecten werden op de projectpagina van het project Contested Content uitvoeriger beschreven.

De externe digitalisering duurde veel langer dan verwacht. CAVA deelde zijn ervaringen omtrent de samenwerking met digitaliseringsfirma’s op de ‘collegagroep digitalisering periodieken’ tijdens een presentatie op 5 oktober 2023. We delen daaruit een aantal bedenkingen:

  • Trek voldoende tijd uit voor het opstellen van een lastenboek, indien je hier weinig ervaring mee hebt.
  • Digitaliseringsfirma’s zijn vaak niet bereid om veel tijd te stoppen in het indienen van een uitgebreid dossier. Hou daar rekening mee bij de vragen die je stelt in het lastenboek. Laat de firma aangeven aan welke vereisten ze niet kunnen voldoen i.p.v. toelichting te vragen bij iedere vereiste en leg de nadruk op de belangrijkste vereisten en vraag daar wat meer input over.
  • Stem, waar mogelijk, voor details af op de procedures van de digitaliseringsfirma (bv. vraag hoe de digitaliseringsfirma omgaat met bijlages i.p.v. zelf een aanpak voor te stellen).
  • Er zijn relatief weinig digitaliseringsfirma’s in België en Nederland die volgens Metamorfoze kunnen digitaliseren. Hou daar rekening mee tijdens het eigenlijke digitaliseringsproces en indien je een bepaald aantal offertes nodig hebt.
  • Laat je begeleiden door Meemoo.
  • Besteed zelf voldoende aandacht aan kwaliteitscontroles.
  • Besteed in het lastenboek voldoende aandacht aan projectmanagement.
  • Speel kort op de bal en neem heel regelmatig zelf het initiatief om te overleggen met de digitaliseringsfirma.

2. Het potentieel van de aanwezige informatie verder benutten

Het doel van het project was om de tekstherkenning of optical character recognition (OCR) toegepast op een selectie tijdschriften gedigitaliseerd in het kader van dit project én het project Contested Content te verbeteren door middel van een samenwerking met de VUB-onderzoeksgroep Digital Mathematics (DIMA). Vaak gaat het namelijk om tijdschriften met een opmerkelijke lay-out (speciale lettertypes, tabellen, figuren, cartoons enz.). Die ‘niet klassieke elementen’ zorgen vaak voor ruis in de output van de OCR-software. Met de toepassing van de door DIMA ontwikkelde algoritmes voor lay-out analyse, met andere woorden het vastleggen van afgebakende delen die door de OCR-software effectief als tekst gezien mogen worden, zou de kwaliteit van de output verbeterd kunnen worden. Het project had dus een experimenteel karakter.

Aangezien de eindproducten van beide projecten met grote vertraging werden afgeleverd, kon DIMA pas in 2023 met dit traject starten. Ondanks de vertraagde opstart, zette DIMA intussen toch een aantal stappen. De resultaten van de eerste verkennende analyse werden naar ons teruggekoppeld eind augustus 2023. DIMA stelde op dat moment de vraag of het toch mogelijk was om ‘ground truth’ materiaal te laten genereren. Op die manier kon de onderzoeksgroep op een kwantitatieve manier de verbetering van zijn ontwikkelingen ten opzichte van de door de firma toegepaste OCR-software vaststellen en meer diepgaande inzichten verwerven in verband met de kwaliteit van de ontwikkelde technologieën; DSPH (document segmentation with probabilistic homogeneity) en METIS (mining and extraction of tekst). CAVA maakte daarop wat budget vrij om dit referentiemateriaal te laten genereren door jobstudenten.

Het tussentijdse rapport getuigt alvast van het potentieel om met de technologie tot een betere extractie van de info uit de tijdschriften te komen in vergelijking met de commerciële software (vb. op vlak van het herkennen van paragrafen, het herkennen van elementen die geen tekst zijn en het herkennen van tabellen). Het eindrapport wordt verwacht eind februari 2024.

DIMA is ook mee met de razendsnelle ontwikkelingen die er zijn geweest sinds de projectaanvraag. Zo gaf DIMA in december 2023 een demonstratie van de pipeline die de onderzoeksgroep, met behulp van de meest actuele grote taalmodellen, aanvullend maakte. Deze ontwikkeling maakt het mogelijk om in een natuurlijke taal een vraag te stellen aan de computer (semantic querying), die vervolgens, op basis van CAVA’s gedigitaliseerde tijdschriften, een antwoord geeft. Ook dit experiment is alvast veelbelovend.

CAVA en DIMA willen, na de afwerking van het rapport door DIMA, uiteraard samen verder bouwen op deze onderzoeksresultaten om de digitaliseringsworkflow en de extractie van betekenisvolle informatie uit de tijdschriften ook effectief te verbeteren en zo bij te dragen aan innovatie en de uitdagingen in dit veld. Fundamenteel wetenschappelijk onderzoek wordt zo gekoppeld aan een directe praktische toepassing binnen de VUB, als een proeftuin.

Op 18 december deelde prof. dr. Lu DIMA’s expertise op onze vraag alvast met de studenten van de master-na-master ‘Archivistiek: Erfgoed en Informatiebeheer’ tijdens een gastcollege onder de titel ‘Revitalizing Cultural Heritage in the era of Artificial Intelligence: layout, ocr and beyond’.

3. De terbeschikkingstelling

Met het oog op de terbeschikkingstelling van de gedigitaliseerde tijdschriften diende CAVA voor een geschikt platform te zorgen (buiten project), de rechtenproblematiek (auteursrecht en wetgeving i.v.m. persoonsgegevens) aan te pakken en een toegang te voorzien, zodat potentieel geïnteresseerden gemakkelijk hun weg zouden vinden in de verschillende tijdschrifttitels.

Het IIIF-platform

Door problemen van diverse aard (veel te late aflevering van scans, beschikbaarheid van technische onderaannemers…), kon een IIIF-platform niet gerealiseerd worden op de manier die we aanvankelijk voor ogen hadden. CAVA stelt momenteel met een nieuwe technische partner, de Universiteitsbibliotheek van de Vrije Universiteit Brussel, alles in het werk om een eerste titel, namelijk Het Vrije Woord, via de infrastructuur van de bibliotheek in de eerste jaarhelft van 2024 op een IIIF-platform ter beschikking te stellen. Andere, op basis van een rechtenanalyse geselecteerde, titels (cfr. De rechtenproblematiek) zullen daarna volgen. Op dit moment zijn de gedigitaliseerde tijdschriften alvast wel in de leeszaal beschikbaar voor onderzoekers en kunnen ze daar door hen op trefwoord doorzocht worden.

De rechtenproblematiek

Naar analogie met het project Contested Content, ondernamen we een aantal arbeidsintensieve acties met het oog op de terbeschikkingstelling van de gedigitaliseerde regionale en lokale vrijzinnig humanistische tijdschriften. Ten eerste brachten we in de mate van het mogelijke de verantwoordelijke uitgevers van de 5489 tijdschriftnummers op de hoogte van ons project, conform art. 194 van de Wet betreffende de bescherming van natuurlijke personen met betrekking tot de verwerking van persoonsgegevens van 30 juli 2018. Ten tweede maakten we, op basis van steekproeven, een analyse van de persoonsgegevens in de 128 titels om te bepalen welke tijdschriften in het kader van onderzoek online op een platform (mits authenticatie van de onderzoeker) en welke enkel in de leeszaal ter beschikking gesteld kunnen worden.

Voor extra toelichting: zie de projectpagina over Contested Content.

Een toegang tot de tijdschriften

Verder verzamelde CAVA, parallel met de analyse (cfr. De rechtenproblematiek), informatie om tekstjes te schrijven die potentiële onderzoekers toelichting moeten geven bij de gedigitaliseerde tijdschrifttitels. Een aantal tekstjes werden reeds ter beschikking gesteld op de website.

De beschrijvende metadata over de tijdschriften werden nog niet geüpload naar Wikidata (met uitzondering van een kleine selectie, als voorbeeld) en ODIS. Na overleg besloot CAVA te wachten op de conversietabel die de beheerder van ODIS aan het uitwerken is. Deze wordt verwacht in maart 2024. Bovendien is ODIS aan het bekijken hoe de koppeling met Wikidata automatisch zou kunnen gebeuren (ODIS-ontmoetingsdag, 9/6/2023). De data zijn intussen wel via CAVA’s website beschikbaar.

4. Citizen sciencetraject rond vrijzinnig humanistische praktijken

Op basis van de meer toegankelijke tijdschriftencollectie was het de bedoeling om samen met vrijwilligers informatie en data over vrijzinnig humanistische praktijken te verzamelen. Op die manier zou CAVA een meer basis kunnen leggen voor een verdere werking rond immaterieel erfgoed.

Met de handleiding/beschrijvingsregels voor de gebeurtenismodule van ODIS en het rapport ‘Immaterieel erfgoed transformeren in data’ in het achterhoofd startten we met het opstellen van een sjabloon en beschrijvingsregels om data en informatie over vrijzinnig humanistische praktijken (erfgoedpraktijken (vb. feest vrijzinnige jeugd), edities (vb. feest vrijzinnige jeugd, Brugge, 1992) en onderdelen van edities (vb. vormen van een broederketen tijdens het feest vrijzinnige jeugd)) te registreren.

Het sjabloon werd daarna getest door een twintigtal studenten uit de opleidingen Geschiedenis en Archivistiek in het kader van het vak ‘Archiefpraktijken’ (prof. dr. Jelena Dobbels). 24 studenten kregen elk 24 nummers toegewezen uit het tijdschrift Het Vrije Woord, het langstlopende vrijzinnig humanistische tijdschrift. Als eerste verkennende oefening om vrijzinnig humanistische immaterieel-erfgoedpraktijken in kaart te brengen, gingen de studenten daarmee in onze leeszaal aan de slag op basis van trefwoord ‘feest’. De informatie over de gevonden gebruiken/feesten verzamelden ze in het door ons opgesteld sjabloon.

De kwaliteit van de ingediende oefeningen was zeer uiteenlopend. Niettemin was deze oefening zeker de moeite waard. De oefening leverde niet alleen een aantal inhoudelijke inzichten en bijkomende onderzoeksvragen met betrekking tot de vrijzinnig humanistische praktijken op, maar ook een aantal praktische inzichten, waarmee we de methode konden bijsturen. Op die manier kwamen we onder meer tot:

Daarnaast bewandelden we vanaf de start van 2023 verschillende wegen om vrijwilligers te werven om de vrijzinnig humanistische praktijken verder in kaart te brengen en te documenteren. We zetten onder andere twee online info- en uitwisselingsmomenten ‘CAVA, op zoek naar tradities’ op poten (28 juni en 27 september 2023) om het bewustzijn rond immaterieel erfgoed te vergroten en mensen te stimuleren om te participeren.

Op die manier konden we drie vrijwilligers aantrekken. Zij toonden interesse voor de vrijzinnig humanistische gebruiken en – in het geval van de bijna afgestudeerde studenten – wilden wat ervaring opdoen in de erfgoedsector. We stelden hen verschillende mogelijke opdrachten voor qua soort werk: het opsporen van potentiële immaterieel-erfgoedpraktijken door te zoeken op trefwoorden, het verzamelen van data over praktijken, edities en onderdelen van die praktijken (cfr. studentenoefening), het oplijsten van bronnenmateriaal en het opstellen van fiches met basisinformatie over praktijken met het oog op publicatie op het ODIS-platform en op de website. De drie vrijwilligers kozen allemaal deze laatste optie. Het opstellen van dergelijke fiches met toelichting bij het opzet en de historische ontwikkelingen van elke praktijk is een arbeidsintensief proces. Informatie moet worden verzameld in tijdschriften en via andere bronnen en moet daarna samengevat worden tot een bevattelijke fiche.

De fiches zijn momenteel nog work in progress; de publicatie op de website ging van start en wordt in 2024 voortgezet. Enkele vrijwilligers gaven enthousiast aan dat ze hun werk ook in 2024 zullen verderzetten.

Conclusies

De resultaten van het ICHICH-project – en het project Contested Content – geven de cultureelerfgoedwerking van CAVA een boost.

De verzamelde metadata en gegenereerde informatie over de tijdschrifttitels, biedt de geïnteresseerde onderzoeker een toegang tot de gedigitaliseerde vrijzinnig humanistische tijdschriften en zo tot een nieuwe schat aan informatie die reeds in de leeszaal, maar binnenkort ook via een IIIF-platform, doorzoekbaar is.

Die toegankelijke tijdschriftencollectie zorgt voor ongeziene kansen voor het onderzoek naar het vrijzinnig humanisme én voor de geïntegreerde en integrale erfgoedwerking van CAVA. Zo konden we op basis van die gedigitaliseerde collectie met studenten en vrijwilligers een basis leggen om CAVA’s immaterieel-erfgoedwerking verder uit te bouwen. De samenwerking met DIMA zal daarenboven in de nabije toekomst mogelijkheden bieden om het terugzoeken van informatie in de collectie te optimaliseren.

Literatuur

Contactgegevens

  • Elise Dewilde, verantwoordelijke voor het project (elise.laure.dewilde@vub.be)
  • Ellen Soetens, technisch verantwoordelijke binnen het project (ellen.maria.soetens@vub.be)