Publicatie:Doorzoekbaarheid van beeldbanken verbeteren met Visual Recognition Software

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


Samenvatting

Dit pilootproject maakt deel uit van het project Operationalisering van beeldherkenning in de registratiepraktijk.


Referentie
Titel Doorzoekbaarheid van beeldbanken verbeteren met Visual Recognition Software (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2020
Rechten CC-BY-SA
Persistent ID


Projectbeschrijving

Problematiek

In de beeldbank van Erfgoed Brugge zijn ca 30% van de beelden nog niet beschreven. Een deel van de beschreven beelden is handmatig ingedeeld bij één of meerdere (sub)categorieën. Gevraagd wordt de onbeschreven beelden te taggen en bij één of meer categorieën onder te brengen. Daarnaast zijn er ook beschreven beelden die onder meerdere categorieën kunnen vallen, maar slechts onder één geplaatst zijn. Zou de VRS die beelden onder meerdere categorieën kunnen plaatsen?

Mogelijke oplossing door VRS

Beelden uit de beeldbank laten taggen door VRS. Deze tags valideren en aan de hand hiervan de beelden toewijzen aan verschillende categorieën. Sommigen zullen voor het eerst in een categorie belanden, anderen zullen nu in meerdere categorieën voorkomen.

Methodologie

Samenvatting
Collectie Beeldbank Brugge
Doel Meer foto’s volgens bestaande categorieën vindbaar maken
Methode
  1. Tagging door Clarifai
  2. Tags manueel aan Categorieën toegekend
  3. Classificatie van foto’s in post-processing
  4. Resultaat verwerkt tot CSV
Tools
  1. Clarifai (image tagging)
  2. Google sheets (GUI voor tag-classificatie matching)
  3. Knime (data processing en workflow management)
  4. MongoDB (data storage)
Resultaat 100.000 foto’s gecategoriseerd, >95% correct


Testsets verzamelen

  1. Erfgoedcel Brugge en Stadsarchief Brugge bezorgden een XML-bestand met metadata van beelden uit de beeldbank (Memorix Maior van Picturae).
  2. Beelden met ontbrekende identifiers werden uit deze dataset verwijderd.
  3. Op basis van de identifiers (UUID) werd een URL gecreëerd die naar de beelden in de beeldbank verwijst.
  4. Data werden weggeschreven naar een lokale MongoDB databank.

Optioneel trainen van VRS

Voor dit proces werd geen training uitgevoerd.

Technische uitvoering

  1. Er werd een request gestuurd voor elk beeld uit de dataset naar de image recognition API van Clarifai (General Model).
  2. Uit de response werden alle tags geselecteerd met een waarschijnlijkheidsscore groter dan 0.96 of 96%.

Autoclassifier

  1. Er werd een trainingset gemaakt van alle beelden die reeds waren gecategoriseerd en waaraan meer dan vijf tags waren toegekend door Clarifai.
  2. De trainingset werd gebruikt om een lokaal model te creëren dat op basis van de tags een categorie kon voorspellen.
  3. De beelden waaraan nog geen categorie was toegekend, werden volgens dit model gecategoriseerd.

De autoclassifier bleek echter onvoldoende accuraat.

Categorisering aan de hand van taglist

  1. Er werd een frequentietabel opgesteld van alle tags die door Clarifai waren gegenereerd.
  2. Er werd een lijst gemaakt van alle categorieën die Erfgoedcel Brugge en Stadsarchief Brugge in de beeldbank gebruiken.
  3. De frequentietabel en de lijst met categorieën werd gecombineerd in een kruistabel. Deze tabel werd gepubliceerd in een Google Sheet.
  4. In de kruistabel werd de relatie tussen een tag en een categorie gelegd.
  5. De kruistabel werd weer ingelezen en op basis van de gelegde relaties werden beelden ondergebracht in één of meerdere categorieën.

Evaluatie

  1. De resultaten van de categorisering aan de hand van de kruistabel werden gepubliceerd in een image viewer (zie illustratie).
  2. De resultaten werden geëvalueerd door een medewerker van Erfgoedcle Brugge. Op basis van deze controle werd de kruistabel aangepast en werd het proces opnieuw uitgevoerd.
EGC Brugge Classifier
EGC Brugge Classifier

Import in registratiesysteem

  1. De resultaten werden omgezet naar een CSV-bestand volgens een formaat dat kan worden geïmporteerd in Memorix.
  2. De applicatiebeheerder van EGC Brugge importeerde het CSV-bestand.

Bevindingen

Taggen door een VRS is zeker een meerwaarde zowel voor onbeschreven als beschreven beelden. Bij onbeschreven beelden zorgt het voor een eerste doorzoekbaarheid en verlicht dit het werk van de registrator. Bij beschreven beelden betekent de tagging een verrijking. In beide gevallen dient er wel nog menselijke controle aan te pas te komen want af en toe duiken tags op die niet correct zijn.

Het vergt een andere mindset van de gebruiker omdat er soms tags toegekend worden die op het eerste zicht vreemd lijken, maar wel correct zijn. Bijvoorbeeld de tag “geen persoon”.

Het is jammer dat er geen specifieke tool ontwikkeld werd waarmee Erfgoedcel Brugge zelf aan de slag kan gaan. Om het project duurzaam in de werking te verankeren gaan Erfgoedcel Brugge en Stadsarchief Brugge in de toekomst met relevante partners samen zitten om zo’n tool te ontwikkelen.

Alternatieve use cases

Voor elke content partner werd individueel gepeild naar de gebruikersbehoeften. Uit de problematieken die naar boven kwamen werden steeds twee à drie mogelijke use cases geformuleerd waarbij VRS een oplossing zou kunnen bieden. Na onderzoek door Datable werd er gekozen voor één specifieke use case per partner, rekening houdende met factoren zoals haalbaarheid en diversiteit. Hieronder vindt u de andere mogelijke use cases die tijdens de voorbereiding werden onderzocht.

Herkennen van tekeningen uit een onbeschreven collectie

Problematiek

Voor een aankomende tentoonstelling gaan foto’s van Brugse straten, gebouwen, parken, … vergeleken worden met oude tekeningen, litho’s,… met diezelfde straten, gebouwen en parken. De foto’s zijn reeds allemaal beschreven en dus makkelijk terug te vinden. Bij de tekeningen ligt dit anders, die zijn onbeschreven (ca. 6.000) en het zou heel wat manuele arbeid zijn indien dit zou moeten gebeuren.

Mogelijke oplossing via VRS

Tien gefotografeerde gebouwen zoeken (bijvoorbeeld het Belfort). Van deze gebouwen sporen we een aantal tekeningen op uit de collectie en hier trainen we de VRS mee. In dit voorbeeld zouden we dus een foto van het Belfort zoeken en een aantal tekeningen van het Belfort om de VRS te trainen. Daarna laten we de VRS los op de rest van de collectie, op zoek naar dezelfde tien geportretteerde zaken.

Afbeeldingen uit krantenpagina’s isoleren

Problematiek

Heel wat kranten zijn reeds via OCR verwerkt, maar de afbeeldingen uit de kranten (bv. advertenties op de pagina’s) zijn hier niet aanwezig.

Mogelijke oplossing via VRS

Via de ruwe XML output van de OCR-bestanden kunnen de coördinaten van de afbeeldingen worden achterhaald en zo isoleren. Aan de hand van VRS kan er ook worden gezien op welke pagina’s er afbeeldingen staan en wat er op deze afbeeldingen staat (bv. man, kostuum, hoed).