Tekstdocumenten digitaliseren
Uit Project_CEST
Akkoord? Of niet? Voeg je opmerking toe onderaan de pagina of stuur CEST een mail.
Deze pagina focust op documenten waarvan tekst de hoofdcomponent uitmaakt. Als het onderwerp van je digitaliseringsproject veeleer grafisch dan tekstueel is, gebruik dan de richtlijnen rond het digitaliseren van beeldmateriaal. De weinige tekstuele informatie kun je dan het best opnemen in de metatags van de afbeelding.
De digitalisering van een tekstdocument is de omzetting van het papieren exemplaar naar een digitaal formaat. Digitaliseren kan ook verwijzen naar het digitaliseringsproces als geheel. Dan omvat het naast de eigenlijke omzetting van analoog naar digitaal ook de beschrijving, de bewaring en het toegankelijk maken van een tekstdocument.
De richtlijnen op deze pagina verwijzen naar de omzetting van analoog naar digitaal. Er zijn aparte richtlijnen voor het inventariseren, de bewaring en het toegankelijk maken van collecties. Concrete stappenplannen voor de digitalisering van audio vind je in de sectie handleidingen.
Richtlijnen
1. Beschrijf de collectie
Vorm jezelf een beeld van de tekstcollectie als geheel voor je aan de eigenlijke omzetting van analoog naar digitaal begint. Zowel de kwaliteit als de kwantiteit van je collectie dien je vast te stellen, omdat je deze gegevens nodig hebt om onder andere de kostprijs en tijdsduur van het gehele digitaliseringsproject in te kunnen schatten.
Minimumrichtlijn
- Beschrijf je collectie formeel op (deel)collectieniveau. Bepaal het aantal en het type van je materialen. Onderscheid eventueel deelcollecties. Hierbij kan de richtlijn (deel)collecties registreren je helpen.
Aanbevolen richtlijn
- Beschrijf je collectie formeel op stukniveau. Gebruik de geschikte datastructuur voor het collectietype waartoe het tekstdocument behoort. Gebruik de geschikte terminologieën en beschrijvingsregels voor de registratie van objecten, de aanmaak van een catalogus of het inventariseren van een archief.
- Hou je aan het 1-op-1-principe: een metadatarecord beschrijft óf de tekst óf wat er geschreven staat óf een digitale reproductie.
- Gebruik de geschikte thesauri, trefwoordenlijsten en andere gecontroleerde termenlijsten.
2. Creëer een beeld als moederbestand
Het moederbestand is het bestand dat op lange termijn bewaard zal worden. De kwaliteit van dit bestand hangt af van de doelstellingen van het digitaliseringsproject en de daaruit volgende kwaliteitseisen[1].
Het moederbestand is ook de basis voor de creatie van alle andere kopieën, zoals raadplegingskopieën en thumbnails.
Kies voor moederbestanden bij voorkeur bestandsformaten die:
- genormeerd en open zijn;
- voldoende gedocumenteerd zijn;
- de essentiële eigenschappen van het originele/authentieke document bewaren;
- geen significant informatie- en/of kwaliteitsverlies met zich meebrengen.
Bewaar een onbewerkte versie van het digitale moederbestand. Hou het analoge origineel bij zolang je geen sluitende zekerheid hebt over de kwaliteit en de langetermijnbewaring van het digitale moederbestand.
Wanneer het origineel wordt bewaard en de digitale kopie enkel bestemd is voor raadpleging, kun je JPEG, JPEG2000 met lossy compressie, PDF, PDF/A, PNG 1.2 of GIF gebruiken (dit laatste alleen voor logo's en grafieken).
Raadpleeg de Metamorfoze richtlijnen of de Guidelines Digitisation of photographic materials van het Nationaal Archief voor meer details over het maken van kwaliteitsvolle reproducties.
2.1. Selecteer een bestandsformaat
Een bestandsformaat is een specifieke codering van informatie in een computerbestand. Voor een moederbestand geldt dat deze informatie zonder kwaliteitsverlies gecodeerd moet zijn. Bovendien is de codering bij voorkeur open en wordt ze breed ondersteund.
Minimumrichtlijn
- Gebruik Uncompressed Baseline IBM TIFF v6.0. Dit is het meest aanbevolen formaat.
Aanbevolen richtlijn
- In bepaalde gevallen kun je JPEG2000 gebruiken als alternatief voor TIFF. Raadpleeg hierover het verslag van de expertmeeting.
- Als een document uit meerdere onderdelen bestaat, zorg er dan voor dat de structuur of relatie tussen die delen bewaard blijft, bv. recto/verso origineel, boek, bundel documenten ... :
- Gebruik een bestandsformaat dat meerdere digitale beelden als één bestand kan opslaan: PDF/A of 'Uncompressed Baseline IBM TIFF v6.0'. CEST adviseert niet om Multipage-TIFF te gebruiken, omdat dit niet door alle software herkend of ondersteund wordt. Sommige programma's zullen enkel de eerste TIFF weergeven. Heb je meerdere pagina's en bestaan die hoofdzakelijk uit tekst, dan is het verstandiger dat je PDF/A gebruikt.
- Kapsel de verschillende TIFF's van de afzonderlijke pagina’s met de noodzakelijke metadata in in één XML-bestand.
2.2. Bepaal de resolutie
Resolutie is het aantal beeldelementen of pixels waaruit een digitaal beeld bestaat. Hoe meer pixels, des te nauwkeuriger het digitale beeld het origineel benadert. De resolutie wordt uitgedrukt in pixels per inch (2,45cm) (ppi). Resolutie wordt ook vaak uitgedrukt in dots per inch(dpi), maar deze eenheid heeft eigenlijk betrekking op de afdrukresolutie en niet de schermresolutie.
Minimumrichtlijn
- De optimale waarde hangt af van het type document dat je digitaliseert. Hou rekening met de drager, de leesbaarheid (zeker als het om tekst gaat), het belang van details etc.
Aanbevolen richtlijn
- Gewoonlijk volstaat 300 ppi voor foto’s en tekstdocumenten.
- Dia's en fotonegatieven vragen een resolutie van 1200 ppi of meer.
- Voor grotere originelen (kaarten, plannen) volstaat een lagere resolutie.
2.3. Bepaal de kleurruimte en kleurdiepte
De kleurruimte is de methode gebruikt om kleuren (digitaal) te beschrijven. Volgens die methode ontvangt elke kleur dan een bepaalde code.
De kleurdiepte bepaalt het aantal bit dat gebruikt wordt om een kleur digitaal te coderen. Hoe meer bits beschikbaar zijn, hoe nauwkeuriger een kleur gecodeerd kan worden en hoe meer kleuren er mogelijk zijn. Hoe meer kleurdiepte, hoe nauwkeuriger het origineel dus benaderd kan worden.
Minimumrichtlijn
- Gebruik ECIRGB-kleurruimte voor de codering van de primaire kleuren.
- Gebruik als kleurdiepte 24 of 48 bit/pixel (dus 8 of 16 bit per primaire kleur).
- Gebruik 8 of 16 bit/pixel voor bestanden die enkel grijswaarden bevatten.
- Voor zwart-witafbeeldingen volstaat 1 bit/pixel. Hiermee worden afbeeldingen bedoeld die enkel puur wit en zwart bevatten, geen grijswaarden dus, bv. tekstdocumenten.
Aanbevolen richtlijn
- Als kleurdiepte voor afbeeldingen met een groot dynamisch bereik kan 30-48 bit (10 of 16 bit per primaire kleur) aangewezen zijn.
2.4. Bepaal de bestandsnaam
De bestandsnaam bestaat uit een reeks karakters die toelaten een bestand te identificeren.
Minimumrichtlijn
- Bepaal een eenduidige structuur voor de bestandsnaam en communiceer dit naar alle medewerkers.[2]
Aanbevolen richtlijn
- Uit de praktijk blijkt dat betekenisvolle bestandsnamen eerder hinderlijk zijn voor een vlotte digitaliseringsworkflow. Bovendien heeft een complexe naamgeving invloed op de kostprijs van de digitalisering, omdat in het werkproces dan meer tijd kruipt. Indien mogelijk werk je dus met betekenisloze namen, bijvoorbeeld doorlopende nummers.
- Gebruik geen speciale tekens in bestandsnamen, zoals haakjes, streepjes, leestekens etc. Die tekens hebben vaak specifieke betekenissen voor dataverwerkende scripts of software en kunnen dus onvoorspelbare effecten hebben. Enkel het liggend streepje ( _ underscore) is veilig.
- ↑ M. Vandermaesen, Digitaal Beeldarchief: Aanbevelingen voor het opzetten van beeldbanken, aan de hand van 'lessons learnt' en 'best practices', Antwerpen, 2005, p. 34
- ↑ Zie http://www.edavid.be/davidproject/teksten/Richtlijn3.pdf
3. Creëer een gestructureerde tekst als moederbestand
Nadat je een tekst ingescand of gefotografeerd hebt, verkrijg je een afbeelding die leesbaar is voor de mens, maar niet voor een 'machine'. De afbeelding kan bijgevolg niet bewerkt of doorzocht worden. Omzetting naar een machineleesbare tekst gebeurt door middel van optische karakterherkenning (OCR) of door handmatige transcriptie. Transcriptie is vaak de enige mogelijkheid wanneer het om een handgeschreven tekst gaat.
3.1. Bewaar de tekst in een gestructureerd formaat
Het is belangrijk dat je een open tekstformaat gebruikt en dat het bestand gegevens kan bevatten over de logische structuur van de tekst.
Minimumrichtlijn
Aanbevolen richtlijn
- Gebruik XML om structuur toe te voegen aan je tekst.
- Gebruik TEI als XML-schema om de tekst te structureren.
- Structurele informatie kan opgeslagen worden door middel van MPEG DIDL.
3.2. Koppel de herkende tekst aan de digitale reproductie
Het is belangrijk dat de herkende tekst met de digitale reproductie verbonden blijft. Een eerste manier is de tekst samen met de afbeelding in één bestand opslaan. Helaas is het moeilijk om gestructureerde tekst in een TIFF-bestand te integreren. Een tweede manier is een apart tekstbestand koppelen aan de digitale reproductie via de metadata over het tekstdocument. Tot slot kun je er eventueel voor kiezen om de transcriptie enkel aan de raadplegingsbestanden te koppelen, bijvoorbeeld in een Double-Layered PDF/A formaat. Weeg bij je keuze goed de voor- en nadelen van alle drie de opties af.
Minimumrichtlijn
- Garandeer een permanente koppeling tussen tekst en afbeelding.
Aanbevolen richtlijn
- Om de indexering te optimaliseren kun je de tekst het best ook als een plain text-formaat(.txt) bewaren en koppelen aan de digitale moederkopie.
- Gebruik een XML-schema dat van elk teken de coördinaten kan bewaren om de tekst te matchen met de digitale reproductie. (bv. ALTO).
4. Leg administratieve en structurele metadata vast
Minimumrichtlijn
- Bepaal welke administratieve en structurele metadata worden bewaard.
- Als je de administratieve en structurele metadata apart van het beeldbestand bewaart, gebruik dan een gestructureerd tekstbestand (bv. XML, CSV, databasebestand).
- Als je administratieve en structurele metadata in het beeldbestand zelf bewaart, gebruik dan de standaardtags die door het bestandsformaat gespecifieerd worden (bv. TIFF baseline tags).
Aanbevolen richtlijn
- Gebruik de PREMIS standaarddatastructuur om de administratieve en structurele metadata vast te leggen.
- Gebruik software als DROID, JHOVE2 of JHOVE om administratieve en structurele metadata te extraheren.
- Gebruik software als JHOVE2 of JHOVE om het bestandsformaat valideren.
- Gebruik metadata-extractiesoftware om technische metadata van bestanden te lezen en te extraheren.
- Als je het bestandsformaat kent, kun je allerlei technische metadata opvragen uit de online databank PRONOM.
5. Creëer een raadplegingsbestand
Raadplegingskopieën zijn kopieën die ter beschikking staan van medewerkers of het publiek. Ze hebben voornamelijk als doel een globaal beeld te geven over het stuk. Het is daarom minder belangrijk dat dit een gedetailleerde, exacte kopie is. Op deze pagina wordt enkel ingegaan op een aantal specifieke zaken die relevant zijn voor het publiceren van teksten. Hou echter ook rekening met juridische beperkingen van auteursrechten op tekstmateriaal.
Er zijn aparte richtlijnen over het publiceren van een website, over open data en over geografische data koppelen aan je collectie.
Minimumrichtlijn
- Je kunt het formaat vrij kiezen. Kies wel voor een formaat dat goed toegankelijk is en een brede ondersteuning kent.
Aanbevolen richtlijn
- Als je ervoor kiest om de tekst te integreren in de digitale reproductie, gebruik dan het raadplegingsformaat Double-Layered PDF/A.
- Gebruik HTML of XML om transcripties te publiceren.
Zie ook
Een concrete vraag in verband met je eigen project? Vraag advies aan PACKED vzw.
Jouw opmerkingen
Schrijf eerst 4 tildes (~) en voeg dan je opmerking toe.



