Publicatie:Verslag Expertmeeting Digitaliseren Tekst

From Meemoo Kennisbank
Jump to navigation Jump to search


Samenvatting


Referentie
Titel Verslag Expertmeeting Digitaliseren Tekst (Voorkeurstitel)
Locatie [ ]
Uitgever
[packed.be PACKED vzw]
Jaar van uitgave 2012
Rechten
Persistent ID


 • Onderwerp: Verslag expertmeeting Digitalisering Tekst
 • Datum: 2012-06-27
 • Locatie: Koninklijke Bibliotheek Den Haag
 • Aanwezig: Peter Boot (),Marian Hellema (IMPACT/KB), Edwin Klijn (), Rene van Stipriaan (Digitale Bibliotheek van de Nederlandse Letteren), Nicoline van der Sijs (Meertens Instituut) / David Copoolse (Vlaamse Erfgoedbibliotheek), Thomas Crombez (Universiteit Antwerpen), Robert Gillesse (DEN), Wietske van den Heuvel (DEN), Bert Lemmens (PACKED), Henk Vanstappen (PACKED)

Verschillende aspecten van digitalisering tekst:

 • digitale beeld/machine-leesbare tekst
 • inhoud (betekenis die in de tekst zit)/vorm (betekenis die in de vorm van het document zit)

Herkomst van digitale tekst

 • belangrijk nieuw element: data over hoe de bron tot stand is gekomen/aanleiding voor de tekst
 • hoe betrouwbaar is de OCR >> moet je als instelling zelf aangeven.
 • elke digitale tekst is een nieuwe editie van een tekst, dus heeft nood aan editieverantwoording.
 • nood aan procedures, gebruikte software
 • elke digitalisering heeft nood aan beschrijving (metadata):
  • welk analoog origineel (editie of exemplaar): bibliografische metadata
  • wanneer, waarom, door wie, .. gescand
  • gebruikte scansettings en -software
  • gebruikte ocr software, betrouwbaarheid
  • alle noodzakelijke metadata om digitale bestanden als een geheel te behouden:
   • bestandsnaam
   • bestandsnaam + mappenstructuur
   • csv of xml-gebaseerde beschrijving
 • betrouwbaarheid van ocr: hoe wordt dit bepaald? bestaan er afspraken over?

3 Kwaliteitsniveaus

 • min: beeld zonder metadata
 • midden: metadata aan de buitenkant
 • max: volledige beschrijving structuur

5 digitaliseringsscenario's naargelang gebruik

 1. digitaal beeld: zie foto's digitaliseren
 2. digitaal beeld en (descriptieve, structurele) metadata
 3. digitaal beeld en tekst
 4. tekst
 5. digitaal beeld en tekst, waarbij beeld als preservation copy geldt: zie ook hier (hoogste) eisen voor foto's digitaliseren:

Er zijn dus drie types (2,3,4), die elk eigen eisen stellen. voor 1 en 5 kan doorverwezen worden.

6 digitaliseringsscenarios naargelang doel

 • analoge teksten opzoekbaar maken: toevoegen van metadata (bibliothecarissenmethode)
 • analoge teksten taggen op named entities (archivarissenmethode)
 • analoge teksten ontsluiten door fulltext ocr, daarbij alle vormelijke eigenschappen bewaren (documentmanagement)
 • analoge teksten ontsluiten door fulltext ocr, met aanduiding van inhoudelijke en grafische elementen (named entities, jaartallen, paginanummers, ...) (voer voor neerlandici)
 • onvolkomenheden in ocr opvangen door ook beeld aan te bieden (quick & dirty aanpak)
 • tekst inhoudelijk doorzoekbaar maken en de documentstructuur bewaren, met verlies van analoog origineel (Gutenbergproject-aanpak)

Workflow

 • digitalisering als een proces met verschillende eindproducten
 • afhankelijkheden in kaart brengen
 • koppeling eindproducten aan processtappen en standaarden.
 • Koppeling met budget dat je nodig hebt om te digitaliseren.

Standaarden

 • versie nummers bij standaardformaten.
 • XML
  • is nogal algemeen. beter duiden
  • publiceer welk XML formaat je gebruikt.
 • TEI
  • vooral inhoudelijke structuur coderen. Niet altijd relevant.
  • maar ook om coordinaten in een tekst aan te brengen
  • TEI heeft heel veel opties. Keuzes maken is lastig. >>> er ontstaan TEI profielen voor bepaalde eindproducten
  • TEI vereist een technicus.
  • TEI leercurve is stijl. DARIAH Vlaanderen project aanvraag om grafische interface voor TEI. Meertens heeft ook zo en editors gemaakt. DBNL maakt ook eigen editors.
  • vereenvoudigde set van tags gebruiken.
 • vgl TEI / ALTO
  • TEI: inhoudelijke structuur van pagina >>> evolueert richting layout.
  • ALTO: layout van pagina beschrijving
 • PDF & ePUB
  • afgeleide bestanden.
  • kan je ePUB ook gebruiken als archiveringsbestand voor digital born publicaties.
  • ePUB: voorlopig nog zeer mager.Eigenlijk een soort website. Gebruikt html en CSS > is een tijdelijkpublicatieformaat.
  • layout concept is vrij mager. Maar wel open. Is op lange termijn makkelijk te openen.
  • ePUB3 belooft meer tools en mogelijkheden (HTML5), maar nog in ontwikkeling.
 • ODF
  • zinvol als open variant voor born digital word bestanden.
 • ePUB
  • vooral een raadplegingsbestand dat op termijn gedigitaliseerde tekst makkelijk toegankelijk maakt via tablets/mobiele telefoons.
  • Dus vooral groeiend belang als raadplegingsformaat.
 • METS/MPEG DIDL
  • wanneer complexe publicaties zijn deze standaarden een must
  • afraden om dit in bestandsnamen op te nemen