Publicatie:Visual recognition
Veel bibliotheken, archieven en documentatiecentra bezitten foto- en videocollecties, maar de online toegang ertoe blijft dikwijls ondermaats. Het gebrek aan goede beschrijvende metadata bemoeilijkt het zoeken in de collecties. Het manueel aanmaken ervan is te tijdrovend opdat collectiebeherende instellingen er afdoende op inzetten. Geautomatiseerde visuele herkenning (visual recognition) biedt je de mogelijkheid om dat toch te doen.
Titel | Geautomatiseerde visuele herkenning (Voorkeurstitel) |
Locatie | META Nummer 2019 |
Uitgever | |
Jaar van uitgave | 2019 |
Rechten | CC-BY-SA |
Persistent ID |
Auteur
Rony Vissers (PACKED vzw / VIAA)
Tekenherkenning
Optische tekenherkenning (OCR) is een vertrouwd begrip in veel bibliotheken, archieven en documentatiecentra. Je zet ze in om in een scan van een tekst de letters, cijfers en leestekens door middel van patroonherkenning te identificeren, en ze daarna op te slaan in een tekstbestand dat doorzoekbaar is met behulp van een computerprogramma. Ook teksten in foto’s en video’s kun je zo omzetten in beschrijvende metadata.
Identificatie van personen, voorwerpen en locaties
Moeilijker wordt het als er personen, voorwerpen en/of locaties staan afgebeeld. Met visuele herkenningstechnologie kun je die tot op zekere hoogte herkennen. Hun namen kun je dan toevoegen aan de beschrijvende metadata, die belangrijk zijn voor het doorzoeken van collecties. De software wordt daarbij gevoed door een referentieset van beelden van personen, voorwerpen en/of locaties én hun namen. Ze kan dan overeenkomstige personen, voorwerpen en/of locaties zoeken in enerzijds de referentieset en anderzijds de te beschrijven collecties. Als er een overeenkomst is, kan de naam aan de beschrijvende metadata van de foto of video worden toegevoegd.
Andere toepassingen
Met visuele herkenningstechnologie kun je ook andere aspecten bepalen, bv. of een beeldbestand een afbeelding een foto of een tekening is, en verder zelfs of het een portret- of landschapsfoto is. Van een afgebeelde persoon kun je bovendien het geslacht, de leeftijd en de houding of positie identificeren. Je kunt de technologie ook inzetten om kleuren, emoties en de sfeer of het thema van een beeld te bepalen. Ook het clusteren van beelden op basis van hun inhoud is mogelijk. De bekomen metadata kan niet alleen de vorm hebben van trefwoorden, maar ook die van een korte zin of een code.
Artificiële intelligentie en machine learning
Visuele herkenningstechnologie is slimme technologie. Ze kan niet enkel bepaalde aspecten herkennen en daar betekenis aan toekennen, maar ook ‘leren’. Het trainen van de technologie gebeurt met diverse sets van beelden en bijbehorende descriptoren. Door meerdere sets te gebruiken, leert de software diverse modellen aan. Visuele herkenningstechnologie wordt vaak aangeboden als een kant-en-klare dienst. Er zijn verschillende diensten beschikbaar op de markt. Ze zijn meestal al getraind, maar kunnen vaak verder worden getraind met eigen beelden en descriptoren. Naarmate ze meer worden getraind, verbeteren de resultaten - tot op bepaalde hoogte.
Inzet van visuele herkenning
Alhoewel de resultaten van visuele herkenningsdiensten vaak niet zo exact zijn als de beschrijvingen van menselijke registratoren, zijn ze belangrijk. Door ze te combineren met de sterkte van de menselijke registratoren, kunnen ze collectiebeherende instellingen helpen om hun beschikbare tijd en middelen voor registratie op een efficiëntere manier in te zetten en zo hun registratie-achterstand te verkleinen.
Bij het gebruik van visuele herkenningstechnologie is het belangrijk om enerzijds te werken met herkenningsmodellen die het best aansluiten bij de inhoud van het beeldmateriaal en de verwachte uitkomst, en anderzijds een drempel in te stellen om het aantal fouten te verkleinen op basis van de waarschijnlijkheidsscore van de descriptoren. Je kunt de resultaten verder verbeteren door de bekomen descriptoren manueel te controleren, geautomatiseerd te filteren om ongewenste of irrelevante descriptoren te verwijderen, te clusteren om beelden te classificeren op inhoudelijke of visuele kenmerken en/of ze op te zoeken in een trefwoordenlijst in functie van verrijking.