Publicatie:Wat is OCR?

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

Van een gedigitaliseerde krant of boek verwacht iedereen dat je meteen door de inhoud kan zoeken zoals bij een Word-document of een website. Een flitscamera herkent probleemloos je nummerplaat en Facebook herkent je op foto’s op het web. Dus waarom zou een pagina uit een gedigitaliseerde krant of boek niet doorzoekbaar zijn? Deze Uitgepakt gaat over Optical Character Recognition of OCR en hoe je de foutenmarge in ge-ocr’de tekst zo laag mogelijk houdt.


Referentie
Titel Wat is OCR? (Voorkeurstitel)
Locatie META nummer 2015/7
Uitgever
Jaar van uitgave 2015
Rechten CC-BY-SA
Persistent ID


Auteur

Bert Lemmens (PACKED vzw)

Wat is OCR?

Van een gedigitaliseerde krant of boek verwacht iedereen dat je meteen door de inhoud kan zoeken zoals bij een Word-document of een website. Een flitscamera herkent probleemloos je nummerplaat en Facebook herkent je op foto’s op het web. Dus waarom zou een pagina uit een gedigitaliseerde krant of boek niet doorzoekbaar zijn? Deze Uitgepakt gaat over Optical Character Recognition of OCR en hoe je de foutenmarge in ge-ocr’de tekst zo laag mogelijk houdt.

OCR is een techniek waarbij je van een analoog tekstdocument een digitaal beeld maakt, vervolgens de vorm van elke letter, cijfer of leesteken analyseert en die letter associeert met een UTF-8 code[1]. Die lettercodes vormen samen een tekstbestand waarmee je de inhoud van het document kan doorzoeken. Die schijnbaar eenvoudige omzetting van een digitaal beeld naar een UTF-8-code is in realiteit een complex en erg foutgevoelig proces waarin drie factoren een belangrijke rol spelen.

Bepalende factoren voor foutgevoeligheid

Een eerste factor is de aard en kwaliteit van het analoge tekstdocument: Het ene document leent zich beter voor het gebruik van OCR dan het andere. In gedrukte documenten uit de 20ste eeuw met grote, homogene teksblokken herkent OCR-software doorgaans tussen de 70 en 99% van de tekens correct[2]. Bijgevolg ligt het percentage correct herkende woorden – vaak de echte toetsteen voor doorzoekbaarheid - nog een stuk lager[3]. De lagere percentages zijn doorgaans te wijten aan oude of onduidelijke lettertypes, beschadigingen, vlekken en doorschemerende inkt van de keerzijde. Door die hoge foutenmarges bij ‘gemakkelijke’ tekstdocumenten, wordt het gebruik van OCR voor heel wat andere types tekstdocumenten zelfs niet overwogen, bv. tabellen, grafisch vormgegeven tekst, sterk geannoteerde tekst, tekst in verschillende kleuren, niet-latijns schrift, cursief en handschrift.

Een tweede factor is de kwaliteit van het digitale beeld. Een scan van een vlak document, zonder randen, met de tekst mooi recht uitgelijnd, geeft een beter resultaat dan een golvend, scheef gescand exemplaar. Het absolute minimum bestaat erin dat de resolutie voldoende groot is om de ‘punten’ en ‘openingen’ van de letters te kunnen onderscheiden. Een resolutie van minimum 300ppi en een kleurdiepte van 8 bit grijswaarden stelt OCR-software in staat om de herkenbaarheid van de tekst te verbeteren door letters recht te trekken en vlekken en andere elementen die niet tot de tekst behoren weg te filteren.

Een derde factor is de kwaliteit van de karakterherkenning. Eén techniek bestaat erin elke letter af te zonderen, om te zetten naar enkel zwarte en witte pixels, de vorm van dit beeld te vergelijken met andere beelden in een bibliotheek en dan de juiste letter te raden. Slimmere technieken analyseren de de rondingen en lijnen van een letter en proberen die te associeren met de ‘archetypische’ rondingen en lijnen van een letter. Het resultaat van dit giswerk wordt vaak getoetst door te kijken of een reeks letters ook als woord voorkomt in een woordenboek. De meeste OCR-software gebruikt een combinatie van deze twee technieken om het eindresultaat zo betrouwbaar mogelijk te maken.

Correctie achteraf

Maar uiteindelijk blijft handmatige correctie onvermijdelijk om de foutenmarge in ge-ocr’de teksten aanvaardbaar te houden, hoewel die investering in tijd en mensen voor veel collecties moeilijk haalbaar is. Een aantal recente crowdsourcingprojecten lijkt echter handmatige correctie van tekstdocumenten een stuk realistischer te maken[4].

Voetnoten

  1. UTF-8 is een standaard voor het  digitaal coderen van lettertekens. UTF-8 zorgt ervoor de letters door computersystemen in verschillende landen en culturen steeds op de juiste manier weergegeven worden
  2. Holley, Rose (April 2009). "How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs". D-Lib Magazine.
  3. Het Impact Centre of Comentence ontwikkelde een tool om, voor je aan een digitaliseringsproject begint, o.b.v een steekproef het percentage foute karakters en woorden te bereken: https://github.com/impactcentre/ocrevalUAtion
  4. Vele handen is het crowdsourcing platform van Picturae. ReCaptcha is een project dat gehost wordt door Google en dat authenticatiesoftware maakt waarmee gebruikers zich kenbaar kunnen maken aan voor een webapplicatie en tegelijkertijd een fout uit een ge-ocr’de tekst verbeteren. De nationale bibliotheek van Finland ontwikkelt in samenwerking met het bedrijf MicroTask games waarmee spelers fouten in gedigitaliseerde kranten verbeteren.