Publicatie:Saloncatalogiproject bereikt foutenpercentage van minder dan 5% bij tekstherkenning

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

Met het project ‘VKC Enriched’ zet de Vlaamse Kunstcollectie samen met UGent (GhentCDH en Imec IDLab) in op verschillende mogelijkheden van artificiële intelligentie.


Referentie
Titel Saloncatalogiproject bereikt foutenpercentage van minder dan 5% bij tekstherkenning (Voorkeurstitel)

Tussentijdse resultaten VKC Enriched (Alternatieve titel)

Locatie
Uitgever
Jaar van uitgave 2022
Rechten CC-BY
Persistent ID


Trefwoorden

techblog | bibliotheekcollecties | museumcollecties | “toegankelijkheid” staat niet in de lijst met mogelijke waarden voor de eigenschap “Cest:aboutExpertise” (digitaal archiveren, linked (open) data, rechten en privacy, toegang en hergebruik, waarderen en selecteren, digitaliseren, digitaal geboren materiaal, digitale strategie, metadata).toegankelijkheid | tekst | rasterbeelden | Standaard:VIAF | Standaard:RKDartists | Standaard:IIIF | Glossarium:OCR

Geautomatiseerde transcriptie en datamining via machine learning

Bij het deelproject ‘Saloncatalogi’ werkten we aan geautomatiseerde transcriptie en datamining via machine learning op de catalogi van de negentiende-eeuwse kunstsalons. Hiervoor maakten we gebruik van tekstherkenning. Partner in het project is MSK Gent.

De eerste stap in de automatische datamining van de saloncatalogi bestaat erin om de woorden correct te detecteren in de gescande catalogi.

Vervolgens brachten we deze gedetecteerde woorden samen tot tekstregels en paragrafen.

Deze worden daarna uitgelezen door een tekstherkenningsmodel (ook wel Optical Character Recognition of OCR geheten) om zo machinewerkbare tekstbestanden te produceren. De kwaliteit van dit proces wordt gemeten aan de hand van de Character Error Rate (CER), die aangeeft hoeveel karakters er procentueel fout uitgelezen worden. De finale iteratie van de OCR bij het saloncatalogiproject heeft een CER van minder dan 5%.

Tekstdetectie van woorden Gedetecteerde tekstregels Gedetecteerde paragrafen

Authorities

De volgende stap in het datamining-proces bestaat erin om uit de tekstbestanden persoonsnamen, tijdsaanduidingen en locaties te filteren. Deze bevat immers vitale informatie over de aanwezige kunstenaars. Op basis hiervan kan daarna een link gelegd worden naar externe authorities zoals VIAF, RKD Artists en Wikidata. Ten slotte wordt al deze data in een database verzameld zodat onderzoekers hiermee verder aan de slag kunnen.

Fig5vkcenriched.png