Publicatie:Handschriftherkenning van het archief Melijn

From Meemoo Kennisbank
Jump to navigation Jump to search


Samenvatting

In 1994 kwam via een gift het Melijn archief in bezit van MoMu. Het archief bestaat uit tien volumen aan 17e en 18e eeuwse brievenkopijen van de Antwerpse handelaarsfamilie Melijn. Het project Handschriftherkenning van het Archief Melijn heeft tot doel deze volumen aan de hand van HTR technologie automatisch te transcriberen en (computer)leesbaar te maken, alsook het archief digitaal te ontsluiten en publiek beschikbaar te maken. Het ontsluiten van dit specifieke archief betekent enerzijds het openlijk delen van een zeer waardevolle historische bron, maar daarnaast ook de mogelijkheid om de ontsluiting en digitalisering van historische documenten te verkennen en onderzoeken.


Referentie
Titel Handschriftherkenning van het Archief Melijn (Voorkeurstitel)
Locatie [ MoMu (Antwerpen)]
Uitgever
Jaar van uitgave 2020-2021
Rechten CC-BY-SA
Persistent ID


Samenvatting

In 1994 kwam via een gift het Melijn archief in bezit van MoMu. Het archief bestaat uit tien volumen aan 17e en 18e eeuwse brievenkopijen van de Antwerpse handelaarsfamilie Melijn. Het project Handschriftherkenning van het Archief Melijn heeft tot doel deze volumen aan de hand van HTR technologie automatisch te transcriberen en (computer)leesbaar te maken, alsook het archief digitaal te ontsluiten en publiek beschikbaar te maken. Het ontsluiten van dit specifieke archief betekent enerzijds het openlijk delen van een zeer waardevolle historische bron, maar daarnaast ook de mogelijkheid om de ontsluiting en digitalisering van historische documenten te verkennen en onderzoeken.

Auteur

  • Dieter Suls, Projectcoördinator (MoMu)
  • Amber Tillemans, Projectmedewerker (MoMu)

Probleemstelling

Algemeen

De bibliotheek & Dries Van Noten studie is aanjager van de digitale strategie van MoMu. Dat wil zeggen dat binnen deze context projecten worden uitgeschreven om de digitalisering en digitale consultatie van bepaalde stukken te vergemakkelijken. In die lijn omhelst het project handschriftherkenning van het archief Melijn een plan om twintig volumen van 17de en 18de-eeuwse brievenkopijenboeken en grootboeken te digitaliseren, transcriberen en publiceren. Het doel van het project is tevens ook om in het proces naar de publicatie van het Melijn archief toe een community van vrijwilligers op te bouwen die bijdraagt aan de validatie en correctie van de geautomatiseerde transcripties (mbv crowdsourcing).

De ontsluiting van deze historische bron betekent het publiek beschikbaar maken van een schat aan informatie over verschillende handelswaar, de handelsroutes en de verschillende handelaarsfamilies uit deze periode. Daarnaast bevat de correspondentie van de familie Melijn ook heel wat informatie over bijvoorbeeld historische gebeurtenissen of zelfs smokkelroutes.

Digitale Ontsluiting

Het project maakt deel uit van de inhaalbeweging digitale collectieregistratie van de Vlaamse Overheid. Deze projectsubsidie maakt het mogelijk om het Melijn archief digitaal te ontsluiten, en om deze bron digitaal (online) te publiceren.

Workflow

Digitalisering

Binnen dit project werd de digitaliseringsstandaard ‘Metamorfoze Light’ aangehouden voor het inscannen van de verschillende volumes.

Bij verder onderzoek naar archiefstukken afkomstig van de Antwerpse handelaarsfamilie Melijn bleek dat er bij de Heemkundige Kring Jan Vleminck nog bijkomende archiefstukken zoals inkomende brieven (geadresseerd aan de familie Melijn) briefkopijboeken met kopijen van uitgaande brieven, en grootboeken. Inzage in deze documenten maakte duidelijk dat de archiefstukken geconserveerd in Wijnegem net de hiaten in het archief van MoMu wisten te completeren, en dat de twee archieven bij elkaar horen. Wellicht werden deze via overerving opgedeeld en kwamen ze zo op twee verschillende plekken terecht. Dit project geeft bijkomend de mogelijkheid om het archief (althans digitaal) te herenigen.

Vervolgens werd beslist om een deel van het projectbudget te investeren aan een bijkomstige digitalisering, van archiefstukken uit de Heemkundige Kring Jan Vleminck. In totaal behandelt dit project bijgevolg niet tien, maar twintig volumes. Waaronder twaalf bievenkopijenboeken, en acht grootboeken.

Transcriptie (HTR)

Om de leesbaarheid van de handgeschreven briefkopijen te kunnen waarborgen, worden deze binnen dit project (automatisch) getranscribeerd (HTR).

Er werd gekozen voor de transcriptietool Transkribus. Deze applicatie die door de READ-COOP beheerd en verder ontwikkeld wordt, is gratis te downloaden, en biedt al dan niet geautomatiseerde oplossingen voor transcriptie, lay-out analyse en structuurherkenning mogelijk. Sinds september 2021 zijn niet langer alle features binnen het platform kosteloos, en wordt er gebruik gemaakt van aan te kopen credits om HTR toe te passen op je documenten.

Binnen dit project werd er gebruik gemaakt van Transkribus om zowel de manuele transcriptie van ground truth (trainingsdata) , als trainen en gebruik maken van een HTR model. Voor het maken van de ground truth werd er beroep gedaan op een jobstudent met een achtergrond in geschiedenis en een expertise in transcriptie. Met deze manueel gemaakte transcripties werd een HTR model getraind met de daarvoor voorziene tool binnen de Transkribus applicatie. Initieel een louter Nederlandstalig model, en later een drietalig (Nederlands, Frans en Engels) model.

Transkribus maakt het mogelijk de transcripties in verschillende bestandsformaten of -types de exporteren uit de omgeving van de applicatie.

Publicatie & Crowdsourcing

Aanvankelijk werd er gekozen om in samenwerking met de UGent data voor te bereiden voor het Madoc platform (ism Digitrati). Madoc is een op IIIF gebaseerd crowdsource-platform dat tot doel heeft open-source gebruikt te worden. Madoc maakt gebruik van IIIF manifest(link)s om gedigitaliseerde documenten (afbeeldingen) en eventuele metadata en transcripties weer te geven. Echter, vanwege een vertragingen rond de ontwikkeling van Madoc was het binnen dit project genoodzaakt om een plan B uit te rollen. Met slechts enkele maanden projecttijd over, werd er gekozen voor een meer kant en klare oplossing, die door Transkribus in najaar 2021 uitgerold zou worden. Het betreft hier de Transkribus Read&Search module; een platform waarop de gebruiker het gedigitaliseerd en getranscribeerd document makkelijk kan raadplegen en doorzoeken. Een andere reden waarom er ook hier weer naar Transkribus werd gekeken, is compatibiliteit. Op deze manier wordt zowel de voor-verwerking van de transcriptie, de HTR als de publicatie op één werkplaats ondergebracht.

Workshop

Vanuit de expertise die werd opgebouwd binnen dit project werd een workshop Transkribus uitgewerkt, in samenwerking met meemoo en Vlaamse Erfgoedbibliotheken. Deze hands-on workshopdag bestond uit enerzijds een algemene introductie tot de Transkribus applicatie en de verschillende taken die (je met) het platform kan uitvoeren. Anderzijds, bestond de workshop ook uit een verdieping op de HTR mogelijkheden van Transkribus, met een introductie tot HTR, en de instructies om HTR modellen te gebruiken, of zelf aan de slag te gaan met het trainen van een persoonlijk HTR model.

Status

Het project Handschriftherkenning van het archief Melijn liep van juni 2020 tem december 2021, en is inmiddels formeel afgesloten. Er wordt momenteel nog gewerkt aan de verwezenlijking van een aantal zaken: een definitief platform waarop de verschillende manuscripten te doorbladeren zijn, en een transcriptieworkshop en -marathon (transcribathon) die de validatie van de HTR gegenereerde transcripties evenals de opbouw van een vrijwilligersbasis dient te verzorgen.

Het project zal resulteren in een online platform waarop de verschillende volumen van het Melijn archief te doorbladeren en te doorzoeken zijn. We zullen gebruik maken van het crowdsourcing platform Madoc (Digirati, UGent). De handgeschreven brieven zullen hierbij (automatisch) getranscribeerd, en dus makkelijker leesbaar en doorzoekbaar zijn.

Conclusies

Gebruik van Transkribus om een handgeschreven historische bron te transcriberen, dmv specifiek op eigen materiaal getrainde HTR model. De ontsluiting van zulke bronnen kunnen op verschillende manieren verlopen, waaronder enkele methoden onderzocht: Transkribus, Madoc, simple annotation server Glen Robson. Deze pagina zal geüpdate worden bij verwezenlijking doelstellingen 2022.