Richtlijn:Tekstdocumenten digitaliseren

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen

Een tekstdocument omzetten van een analoge naar digitale versie kan op twee manieren:

  • naar een digitaal beeld: Hierbij codeer je de inhoud en de vorm van het tekstdocument in een digitale rasterafbeelding die het oorspronkelijke document reproduceert. Dit biedt de mogelijkheid om de authentieke vorm en inhoud van tekstdocumenten, die in zeer slechte staat zijn of die verloren dreigen te gaan, toch aan het publiek beschikbaar te stellen.
  • naar een machineleesbare tekst: Hierbij codeer je de inhoud en de vorm van het tekstdocument in een digitaal tekstbestand, waardoor het document gelezen kan worden door computersystemen. Dit biedt de mogelijkheid grote hoeveelheden tekst makkelijk doorzoekbaar te maken, te analyseren, te structureren en te verrijken.

Deze richtlijn is van toepassing op het digitaliseren van een tekst in erfgoedcollecties, waar de kwaliteit van de digitale reproductie voldoende hoog moet zijn om het analoge origineel in geval van verlies te vervangen en het formaat van de digitale reproductie duurzaam genoeg om op lange termijn bewaard te worden. Deze richtlijn bevat specifieke minimum- en aanbevolen standaarden voor het omzetten van tekstdocumenten naar digitaal beeld en/of machineleesbare tekst, het doorzoekbaar maken van de collectie en de registratie van beheersgegevens.

Deze richtlijn is van toepassing op het digitaliseren van archiefdocumenten en publicaties die hoofdzakelijk uit tekst bestaan. Als het tekstdocument ook grafisch materiaal bevat, overweeg dan ook de richtlijnen rond het digitaliseren van beeldmateriaal. Wanneer een dergelijk "gemengd" document slechts weinig tekstuele informatie bevat, kun je deze best opnemen in de header van de rasterafbeelding.

1. Beschrijf de collectie tekstdocumenten

Verzamel eerst de nodige gegevens (metadata) over de tekstdocumenten die je wil digitaliseren. Vorm jezelf zowel een beeld van de tekstcollectie als geheel, als van de afzonderlijke tekstdocumenten. Deze gegevens heb je nodig om de collectie te ontsluiten en om de kostprijs en tijdsduur van het gehele digitaliseringsproject in te schatten.

Minimumrichtlijn

  • Beschrijf je collectie op (deel)collectieniveau. Bepaal het aantal en het type van je materialen. Onderscheid eventueel deelcollecties. Hierbij kan de richtlijn (deel)collecties registreren je helpen. Stel zowel de kwaliteit als de kwantiteit vast van je collectie om de kostprijs en tijdsduur van het gehele digitaliseringsproject in te schatten.
  • Beschrijf de collectie op de niveaus waarop ze ontsloten wordt. Wanneer je een gedigitaliseerd tijdschrift op aflevering- en/of artikelniveau ontsluit, moet het op deze niveaus ook beschreven worden. Dit is noodzakelijk om de digitale tekstdocumenten goed doorzoekbaar te maken.
  • Beschrijf de collectie op de niveaus waarop het tekstdocument in een digitaal bestand bewaard wordt. Wanneer je een tijdschrift per aflevering in een digitaal bestand stopt, moet het op dit niveau ook beschreven worden. Dit is noodzakelijk om zoekresultaten te kunnen koppelen aan het juiste digitale bestand.

Aanbevolen richtlijn

  • Hou je aan het 1-op-1-principe: een metadatarecord beschrijft óf de tekst óf wat er geschreven staat óf een digitale reproductie. Voor hiërarchisch gestructureerde tekstdocumenten geldt hetzelfde: een metadatarecord beschrijft óf de collectie óf de aflevering óf het artikel etc.
  • Gebruik, naargelang de aard van het tekstdocument, de geschikte terminologieën en beschrijvingsregels voor de registratie van objecten, het maken van een bibliotheekcatalogus of het inventariseren van een archief.

2. Maak een moederbestand voor het digitale beeld

Dit digitale beeld is de eerste kopie van het analoge tekstdocument en vormt de basis voor alle verdere kopieën. Bewaar tijdens het digitaliseringtraject steeds een onbewerkte versie van het moederbestand. Hou het analoge origineel bij zolang je geen sluitende zekerheid hebt over de kwaliteit en de langetermijnbewaring van het archiveringsbestand.

Hou bij het vastleggen van de kwaliteitseisen voor het moederbestand rekening met doelstellingen van je digitaliseringsproject. Stel vast op welke manieren het moederbestand de tekst moet representeren:

  • het digitale beeld dient om via OCR-software een machine leesbare tekst te maken.
  • het digitale beeld dient om de inhoud van het document te ontsluiten.
  • het digitale beeld dient een betrouwbare weergave te zijn van het originele document.
  • het digitale beeld dient het originele document in geval van verlies of beschadiging te vervangen.

Zorg ervoor dat je voldoende opslagcapaciteit, hard- en software en it-vaardigheden in huis hebt om de doelstellingen van je project uit te voeren. Vermijd dat je de kwaliteitseisen voor het moederbestand bijstelt in functie van de beschikbare technologie en kennis.

Hou deze overwegingen in het achterhoofd bij het maken van de volgende keuzes:

2.1. Selecteer een bestandsformaat

Het bestandsformaat van een digitale afbeelding bepaalt de specifieke codering van de beeldpunten in een computerbestand.

Minimumrichtlijn

  • Gebruik een open en goed gedocumenteerd bestandsformaat. Zo vermijd je afhankelijk te worden van specifieke software voor het transcoderen van het moederbestand. Bovendien kan je een open moederbestand meteen gebruiken als archiverings- of reproductiebestand en vermijd je bijkomende transcoderingen.

Aanbevolen richtlijn

  • Gebruik Uncompressed Baseline IBM TIFF v6.0. Omwille van zijn robuustheid en brede ondersteuning is dit het meest aanbevolen bestandsformaat.
  • Gebruik JPEG2000 als je de omvang van het moederbestand wil beperken. JPEG2000 biedt technisch superieure mogelijkheden voor het gebruik van lossless of lossy compressie.
  • Gebruik JPEG en PNG enkel als het digitale beeld louter gebruikt wordt voor het produceren van gestructureerde tekst of voor het ter beschikking stellen van de inhoud van het tekstdocument.
  • Vermijd het gebruik van PDF of PDF/A als moederbestand, omdat het heel moeilijk is om van dit bestandsformaat verdere reproductie- of raadplegingsbestanden te maken.
  • Als een tekstdocument uit meerdere onderdelen bestaat (bv. recto/verso tekstdocument, bundel tekstdocumenten, boek, tijdschrift, bijlagen, etc.):
    • Gebruik voor het moederbestand TIFF- en JPEG2000-bestanden in combinatie met een XML-bestand waarin je de structurele relaties tussen de verschillende bestanden vastlegt.
    • Vermijd het gebruik van Multipage-TIFF als moederbestand, omdat dit niet door alle software herkend of ondersteund wordt. Sommige programma's zullen enkel het eerste TIFF-bestand weergeven.
    • Vermijd het gebruik van PDF als moederbestand om alle onderdelen als één bestand aan te bieden, omdat het heel moeilijk is om van dit bestandsformaat verdere reproductie- of raadplegingsbestanden te maken.

2.2. Bepaal de resolutie

De resolutie is het aantal beeldpunten of pixels waaruit een digitaal beeld bestaat. Hoe meer pixels, des te nauwkeuriger het digitale beeld het origineel benadert. De resolutie wordt uitgedrukt in pixels per inch (2,54 cm) (ppi). Resolutie wordt ook vaak uitgedrukt in dots per inch(dpi), maar deze eenheid heeft enkel betrekking op de afdrukresolutie en niet op de beeldresolutie.

Minimumrichtlijn

  • Voor het produceren van machine-leesbare tekst is de minimumeis dat de "punten" en "openingen" van de letters duidelijk zichtbaar zijn. In de praktijk betekent dit bijvoorbeeld dat het puntje van de "i" los staat van het streepje. Of dat de opening in de "e" duidelijk zichtbaar is.
  • Gebruik bij het digitaliseren van originele tekstdocumenten een resolutie van minimum 300 ppi, wanneer van het digitale beeld raadplegingsbestanden worden gemaakt. 300ppi is de minimale resolutie om een gedigitaliseerd tekstdocument op ware grootte af te drukken.
  • Gebruik bij het digitaliseren van reproducties op microfilm of dia een resolutie die overeenkomt met 300 ppi vermenigvuldigd met de reductiefactor van de reproductie (300 true ppi).

Aanbevolen richtlijn

  • Niet van toepassing.

2.3. Bepaal de kleurruimte en kleurdiepte

De kleurruimte is de methode gebruikt om de kleur van elk beeldpunt digitaal te coderen. De bitdiepte bepaalt het aantal bits (nullen en enen) die daar per beeldpunt voor gebruikt worden. Hoe meer bits gebruikt worden, hoe meer kleuren er mogelijk zijn en hoe nauwkeuriger een kleur gecodeerd kan worden.

Minimumrichtlijn

  • Gebruik een kleurdiepte van minimum 8 bit voor een moederbestand waarmee via OCR-software gestructureerde tekst wordt gemaakt. Een 8 bit beeld bevat enkel grijswaarden. De OCR-software zet 8-bit beelden om in 1 bit beelden (zwart/wit), die gebruikt worden om karakters te identificeren.
  • Gebruik een kleurdiepte van minimum 8 bit voor een moederbestand waarmee de inhoud van het tekstdocument ter beschikking wordt gesteld.
  • Gebruik een kleurdiepte van minimum 24 bit voor een moederbestand waarmee een betrouwbare kleurenweergave van het oorspronkelijk tekstdocument ter beschikking wordt gesteld.
  • Gebruik de sRGB kleurruimte voor het coderen van kleur in digitale beelden met een bitdiepte tot 24 bit.
  • Gebruik de ECIRGB kleurruimte voor het coderen van kleur in digitale beelden met een groot dynamisch bereik (30 bit en meer).

Aanbevolen richtlijn

  • De aanbevolen kleurdiepte voor monochrome afbeeldingen is 16 bit, gecodeerd met behulp van de sRGB kleurruimte.
  • De aanbevolen kleurdiepte voor afbeeldingen met een groot dynamisch bereik kan oplopen tot 30-48 bit (10 of 16 bit per primaire kleur), gecodeerd met behulp van de ECIRGB kleurruimte.

2.4. Bepaal de bestandsnaam

De bestandsnaam is een reeks karakters die een digitaal bestand identificeren. Bepaal voor je organisatie een eenduidige structuur voor bestandsnamen en communiceer deze naar alle medewerkers.

Minimumrichtlijn

  • De bestandsnaam moet elk digitaal beeld in de collectie van je organisatie uniek identificeren.
  • Gebruik enkel letters, cijfers, liggend streepje ( _ underscore) of koppelteken (- "hyphen"). Gebruik geen speciale tekens zoals haakjes, streepjes, leestekens, etc. Die tekens hebben vaak specifieke betekenissen voor dataverwerkende scripts of software en kunnen dus onvoorspelbare effecten hebben. Vermijd ook diakritische tekens (accenten, trema's).
  • Gebruik een betekenisloze structuur (bv. een unieke reeks cijfers en/of letters) of een betekenisvolle structuur met een zo beperkt mogelijk aantal onderdelen (bv. identificatienummer tekstdocument + volgnummer pagina).

Aanbevolen richtlijn

  • Gebruik betekenisloze bestandsnamen om de digitaliseringsworkflow eenvoudig te houden. Uit de praktijk blijkt dat betekenisvolle bestandsnamen eerder hinderlijk zijn voor een vlotte digitaliseringsworkflow. Bovendien heeft een complexe naamgeving invloed op de kostprijs van de digitalisering, omdat in het werkproces dan meer tijd kruipt. Indien mogelijk werk je dus met betekenisloze namen, bijvoorbeeld doorlopende nummers.
  • Gebruik betekenisvolle bestandsnamen wanneer deze bestandsnamen reeds verspreid zijn in verschillende computersystemen, bijvoorbeeld via aggregatie van de metadata. Hierdoor vermijd je dat je data op verschillende plaatsen moet updaten.
  • Neem in de bestandsnaam een code op die verwijst naar de naam van de erfgoedorganisatie die het tekstdocument bewaart.

2.5 Registreer structurele metadata over het gedigitaliseerde tekstdocument

Structurele metadata bevatten informatie over de structurele samenhang van de onderdelen van het tekstdocument, zoals het aantal en de volgorde van de pagina's in een tekstdocument. De registratie van structurele metadata is noodzakelijk om de structuur van het oorspronkelijke tekstdocument digitaal te reconstrueren.

Minimumrichtlijn

  • Gebruik een gestructureerd tekstbestand (CSV of XML) om structurele informatie over een gedigitaliseerd tekstdocument te bewaren.
  • Gebruik de bestandsnaam alleen om structurele metadata over eenvoudige tekstdocumenten te bewaren. Beperk de structurele informatie tot een volgnummer dat verwijst naar de reeks pagina's in het oorspronkelijke tekstdocument.
  • Vermijd het gebruik van een hiërarchische mappenstructuur om de structuur van een gedigitaliseerd tekstdocument te registreren.

Aanbevolen richtlijn

  • Gebruik het METS XML Schema om complexe documentstructuren te registreren.
  • Gebruik het PREMIS XML Schema om, naast administratieve gegevens, ook structurele gegevens te bewaren.

3. Maak een moederbestand voor de machineleesbare tekst

Nadat je een digitaal beeld van het tekstdocument gemaakt hebt, verkrijg je een reproductie die leesbaar is voor de mens, maar niet voor een 'machine'. Wanneer je de inhoud van de tekst bijvoorbeeld doorzoekbaar wil maken via je computer of wanneer je links wil leggen tussen de inhoud van de tekst en andere informatiebronnen, moet de tekst eerst 'machineleesbaar' gemaakt worden. Deze omzetting gebeurt door middel van optische karakterherkenning of door handmatige transcriptie.

3.1. Bewaar de machineleesbare tekst in een open tekstbestand

Om de getranscribeerde of ge-OCR'de tekst op lange termijn toegankelijk te houden is het noodzakelijk om de tekst te bewaren in een open tekstbestand. Dit maakt het ook mogelijk om de tekst semantisch en formeel te laten analyseren door machines.

Minimumrichtlijn

  • Gebruik een open bestandsformaat.
  • Gebruik voor de codering van de tekst een tekenset die op Unicode gebaseerd is, bij voorkeur UTF-8.

Aanbevolen richtlijn

  • Gebruik XML om structuur toe te voegen aan je tekst en publiceer het bijhorende XML Schema.
  • Gebruik een XML Schema dat zich conformeert aan de TEI-richtlijnen. Dit betekent dat het XML Schema gebruik maakt van TEI-conforme tags om de tekst semantisch te coderen. Het gebruik van TEI-tags maakt het mogelijk om de tekst inhoudelijk door een machine te laten analyseren.
  • Gebruik ALTO XML Schema als standaard datastructuur om de lay-out van de tekst te coderen. ALTO maakt gebruik van coördinaten om de tekst te matchen met het digitale beeld, waardoor je tekst kan terugvinden in het digitale beeld.

3.2. Koppel de machineleesbare tekst aan het digitale beeld

Wanneer je zowel de machineleesbare tekst als het digitale beeld toegankelijk maakt, is het noodzakelijk om een koppeling te maken tussen beide bestanden. Dit kan op twee verschillende manieren:

  • de tekst samen met het beeld in één bestand opslaan, of
  • het digitale beeld koppelen aan de tekst via de metadata over het tekstdocument.

De eerste manier is enkel mogelijk met Double-Layered PDF/A-bestanden. TIFF en JPEG2000 beschikken standaard niet over de tags om machineleesbare tekst op te nemen in het bestand. In dit geval moet je gebruik maken van de metadata over de tekst.

Minimumrichtlijn

  • Garandeer, wanneer je het digitale beeld bewaart, een permanente koppeling tussen de machineleesbare tekst en het digitale beeld.

Aanbevolen richtlijn

  • Gebruik het Standaard:MPEG-21 DIDL of METS XML Schema om een koppeling te maken tussen TIFF of JPEG2000 archiveringsbestanden en de machineleesbare tekst in XML
  • Gebruik Double-Layered PDF/A als raadplegingsbestand om digitaal beeld en machineleesbare tekst geïntegreerd ter beschikking te stellen.
  • Bewaar de machineleesbare tekst als een plain text-formaat TXT om de indexering van de inhoud van het tekstdocument te optimaliseren.

4. Registreer administratieve metadata over het gedigitaliseerde tekstdocument

Om de lange termijn bewaring, preservering en de toegankelijkheid van het gedigitaliseerde tekstdocument te verzekeren is het noodzakelijk om enkele administratieve gegevens over dit document te registreren. Deze metadata geldt als soort 'editievermelding' of 'verantwoording' bij de digitale kopie van het origineel en omvat informatie over de rechten die op de digitale kopie berusten, technische metadata over de wijze waarop de digitale kopie is vervaardigd en preserveringsdata die nodig is om de integriteit en authenticiteit van de digitale kopie op lange termijn te verzekeren.

Minimumrichtlijn

  • Bepaal welke administratieve metadata worden bewaard.
  • Bewaar de geselecteerde administratieve metadata in een gestructureerd tekstbestand (bv. XML, CSV, databankbestand).
  • Bewaar de geselecteerde administratieve metadata indien mogelijk in de header van het beeldbestand zelf. Gebruik hierbij enkel de standaardtags die door het bestandsformaat gespecifieerd worden (bv. TIFF baseline tags).

Aanbevolen richtlijn

  • Gebruik metadata-extractiesoftware zoals ExifTool om administratieve metadata uit beeldbestanden te extraheren en eventueel bijkomende metadata toe te voegen.
  • Gebruik identificatiesoftware zoals DROID, JHOVE2 of JHOVE om technische metadata te extraheren en te identificeren.
  • Als je het bestandsformaat kent, kun je allerlei technische metadata opvragen uit de online databank PRONOM.
  • Gebruik software als JHOVE2 of JHOVE om het beeldbestand te valideren.
  • Gebruik de PREMIS standaard datastructuur om de technische-, juridische en preserveringsmetadata vast te leggen.

5. Maak archiverings-, reproductie- en raadplegingsbestanden

Op basis van het moederbestand en de machineleesbare tekst maak je een reeks bestanden die het eindproduct van je digitaliseringsproject vormen. Maak bij het bepalen van kwaliteitseisen voor eindproducten onderscheid tussen drie types:

  • Het archiveringsbestand is een digitale kopie van het oorspronkelijke tekstdocument in de hoogst mogelijke kwaliteit - bij voorkeur voldoende hoog om het origineel in geval van vernietiging of beschadiging te vervangen.
  • Het reproductiebestand is een moederbestand dat je zelf gebruikt wordt voor het maken van verschillende soorten raadplegingsbestanden.
  • Het raadplegingsbestand is een digitale kopie die gebruikt wordt om een tekstdocument digitaal ter beschikking te stellen.

Hou bij het maken van raadplegingsbestanden ook rekening met juridische beperkingen van auteursrechten op tekstmateriaal, de richtlijnen voor het publiceren van een website en open data.

Minimumrichtlijn

  • Gebruik voor het archiveringsbestand een open bestandsformaat. Dit waarborgt dat bestanden op lange termijn toegankelijk blijven.
  • Gebruik voor het reproductiebestand een open en goed ondersteund bestandsformaat.

Aanbevolen richtlijn

  • Aanbevolen bestandsformaten voor archiveringsbestanden:
    • TIFF om digitale beelden ongecomprimeerd te bewaren.
    • JPEG2000 om digitale beelden met lossless compressie te bewaren.
  • Aanbevolen bestandsformaten voor reproductiebestanden:
  • Aanbevolen bestandsformaten voor raadplegingsbestanden:
    • JPEG2000 om digitale beelden toegankelijk te maken op hoge resolutie.
    • PDF om tekstdocumenten toegankelijk te maken die uit meerdere onderdelen bestaan (bv. recto/verso tekstdocument, bundel tekstdocumenten, boek, tijdschrift, bijlagen, etc.).
    • PDF om digitale beelden en machineleesbare tekst geïntegreerd toegankelijk te maken.
    • PDF om digitale beelden af te drukken.
    • HTML om machineleesbare tekst toegankelijk te maken via een website.
    • ePUB om machineleesbare tekst toegankelijk te maken via tablets en andere mobiele apparaten.