Publicatie:Saloncatalogiproject bereikt foutenpercentage van minder dan 5% bij tekstherkenning

Samenvatting

Met het project ‘VKC Enriched’ zet de Vlaamse Kunstcollectie samen met UGent (GhentCDH en Imec IDLab) in op verschillende mogelijkheden van artificiële intelligentie.

Referentie

Titel	Saloncatalogiproject bereikt foutenpercentage van minder dan 5% bij tekstherkenning (Voorkeurstitel) Tussentijdse resultaten VKC Enriched (Alternatieve titel)
Locatie
Uitgever	Vlaamse Kunstcollectie
Jaar van uitgave	2022
Rechten	CC-BY
Persistent ID

Trefwoorden

techblog | bibliotheekcollecties | museumcollecties | “toegankelijkheid” staat niet in de lijst met mogelijke waarden voor de eigenschap “Cest:aboutExpertise” (digitaal archiveren, linked (open) data, rechten en privacy, toegang en hergebruik, waarderen en selecteren, digitaliseren, digitaal geboren materiaal, digitale strategie, metadata).toegankelijkheid | tekst | rasterbeelden | Standaard:VIAF | Standaard:RKDartists | Standaard:IIIF | Glossarium:OCR

Geautomatiseerde transcriptie en datamining via machine learning

Bij het deelproject ‘Saloncatalogi’ werkten we aan geautomatiseerde transcriptie en datamining via machine learning op de catalogi van de negentiende-eeuwse kunstsalons. Hiervoor maakten we gebruik van tekstherkenning. Partner in het project is MSK Gent.

De eerste stap in de automatische datamining van de saloncatalogi bestaat erin om de woorden correct te detecteren in de gescande catalogi.

Vervolgens brachten we deze gedetecteerde woorden samen tot tekstregels en paragrafen.

Deze worden daarna uitgelezen door een tekstherkenningsmodel (ook wel Optical Character Recognition of OCR geheten) om zo machinewerkbare tekstbestanden te produceren. De kwaliteit van dit proces wordt gemeten aan de hand van de Character Error Rate (CER), die aangeeft hoeveel karakters er procentueel fout uitgelezen worden. De finale iteratie van de OCR bij het saloncatalogiproject heeft een CER van minder dan 5%.

Authorities

De volgende stap in het datamining-proces bestaat erin om uit de tekstbestanden persoonsnamen, tijdsaanduidingen en locaties te filteren. Deze bevat immers vitale informatie over de aanwezige kunstenaars. Op basis hiervan kan daarna een link gelegd worden naar externe authorities zoals VIAF, RKD Artists en Wikidata. Ten slotte wordt al deze data in een database verzameld zodat onderzoekers hiermee verder aan de slag kunnen.

Publicatie:Saloncatalogiproject bereikt foutenpercentage van minder dan 5% bij tekstherkenning

Geautomatiseerde transcriptie en datamining via machine learning

Authorities

Navigatiemenu

Zoeken