Publicatie:Transkribus

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


Samenvatting

Machine Learning en Artificiële Intelligentie zijn twee technologieën die stilletjes aan ingeburgerd geraken, niet alleen in ons dagdagelijks leven (bv. de slimme speaker Alexa of de kattenfilters van Zoom), maar ook binnen verschillende diensten in de erfgoed- en informatiesector. Zowel Machine Learning als Artificiële Intelligentie hebben aangetoond dat ze waardevol kunnen zijn bij het automatisch beschrijven van collecties, het verrijken van data en het doorzoekbaar en bruikbaar van informatie (zie Uitgepakt nr.8, 2019). Binnen dit artikel gaan we dieper in op de beeldherkenningstoepassing Handwritten Text Recognition (HTR). Dit proces kan uitgevoerd worden met de tool Transkibus.


Referentie
Titel Transkribus (Voorkeurstitel)
Locatie META Nummer 2021/5
Uitgever
Jaar van uitgave 2021
Rechten CC-BY-SA
Persistent ID


Auteur

Astrid Vergauwe (meemoo, Vlaams instituut voor het archief)

Waarom?

Net als het registreren van objecten, is het transcriberen van (handgeschreven) documenten een zeer tijdsintensieve taak. Dankzij specifieke toepassingen binnen de tekst- en beeldherkenning, kunnen deze opdrachten ondersteund of opgevangen worden door intelligente, geautomatiseerde processen.

HTR

Handwritten Text Recognition (HTR) of handschriftherkenning is het automatisch herkennen, verwerken en interpreteren van handgeschreven documenten door een computer. De bron hoeft niet noodzakelijk een papieren of analoog document te zijn. Deze technologie laat toe om handgeschreven tekst op foto’s of touchscreens te herkennen. HTR kan zowel offline als online uitgevoerd worden. Bij de offline herkenning wordt de handgeschreven tekst geautomatiseerd omgezet in een digitaal bestand met lettercodes. Dit gebeurt door een camera of optische scanner. Vervolgens wordt het bestand verder herkent en verwerkt door de tekstherkenningssoftware. Binnen de online toepassing wordt de tekstherkenningssoftware rechtstreeks losgelaten op reeds gedigitaliseerde bronnen.

Door HTR toe te passen, worden de digitale bestanden machineleesbaar en doorzoekbaar voor bv. computers. Niet alleen kan de tekst doorzocht worden op trefwoorden (keyword search), met behulp van Named Entity Recognition kunnen nadien termen uit de tekst op een (semi-) automatische wijze gekoppeld worden aan linked open data authorities (bv. thesauri).

Transkribus

Verschillende instellingen kampen met grote hoeveelheden gedigitaliseerde (al dan niet handgeschreven) documenten die niet getranscribeerd zijn. Dit heeft als gevolg dat deze bronnen weinig doorzoekbaar zijn. Vaak is dit te wijten de arbeidsintensieve aard van het manueel transcriberen. Vanuit deze nood is het service platform Transkribus ontstaan. De tool werd ontwikkeld door de Universität Innsbruck in samenwerking met 20 andere universiteiten binnen het Europees HORIZON 2020 project.

Transkribus is een uitgebreid platform voor het (automatisch) transcriberen, herkennen en doorzoeken van gedigitaliseerde tekstdocumenten. Alle diensten zijn ontwikkeld met oog op delen van expertise en het hergebruik van data en onderzoek. Naast de bovenbeschreven HTR, voorziet Transkribus ook de mogelijkheid om lay-out analyses uit te voeren. Dit wordt idealiter verricht vooraleer een HTR wordt toegepast. Zo wordt tijdens de herkenning, geen cruciale informatie over het hoofd gezien of verkeerd geïnterpreteerd.

Transkribus kan je downloaden via de website van READ-COOP SCE. De enige vereiste is het aanmaken van een gebruikersaccount. Het platform is een betalende dienst, maar READ biedt bij iedere nieuwe aanmelding een volume gratis te verwerken pagina’s aan. Het platform is laagdrempelig en vereist geen voorafgaande kennis. Ondertussen gebruiken een diverse Vlaamse culturele instellingen (zoals de Vlaamse Erfgoedbibliotheken en MoMu) deze tool