Publicatie:Verslag Expertmeeting Digitaliseren Tekst

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting


Referentie
Titel Verslag Expertmeeting Digitaliseren Tekst (Voorkeurstitel)
Locatie [ ]
Uitgever
[packed.be PACKED vzw]
Jaar van uitgave 2012
Rechten
Persistent ID


  • Onderwerp: Verslag expertmeeting Digitalisering Tekst
  • Datum: 2012-06-27
  • Locatie: Koninklijke Bibliotheek Den Haag
  • Aanwezig: Peter Boot (),Marian Hellema (IMPACT/KB), Edwin Klijn (), Rene van Stipriaan (Digitale Bibliotheek van de Nederlandse Letteren), Nicoline van der Sijs (Meertens Instituut) / David Copoolse (Vlaamse Erfgoedbibliotheek), Thomas Crombez (Universiteit Antwerpen), Robert Gillesse (DEN), Wietske van den Heuvel (DEN), Bert Lemmens (PACKED), Henk Vanstappen (PACKED)

Verschillende aspecten van digitalisering tekst:

  • digitale beeld/machine-leesbare tekst
  • inhoud (betekenis die in de tekst zit)/vorm (betekenis die in de vorm van het document zit)

Herkomst van digitale tekst

  • belangrijk nieuw element: data over hoe de bron tot stand is gekomen/aanleiding voor de tekst
  • hoe betrouwbaar is de OCR >> moet je als instelling zelf aangeven.
  • elke digitale tekst is een nieuwe editie van een tekst, dus heeft nood aan editieverantwoording.
  • nood aan procedures, gebruikte software
  • elke digitalisering heeft nood aan beschrijving (metadata):
    • welk analoog origineel (editie of exemplaar): bibliografische metadata
    • wanneer, waarom, door wie, .. gescand
    • gebruikte scansettings en -software
    • gebruikte ocr software, betrouwbaarheid
    • alle noodzakelijke metadata om digitale bestanden als een geheel te behouden:
      • bestandsnaam
      • bestandsnaam + mappenstructuur
      • csv of xml-gebaseerde beschrijving
  • betrouwbaarheid van ocr: hoe wordt dit bepaald? bestaan er afspraken over?

3 Kwaliteitsniveaus

  • min: beeld zonder metadata
  • midden: metadata aan de buitenkant
  • max: volledige beschrijving structuur

5 digitaliseringsscenario's naargelang gebruik

  1. digitaal beeld: zie foto's digitaliseren
  2. digitaal beeld en (descriptieve, structurele) metadata
  3. digitaal beeld en tekst
  4. tekst
  5. digitaal beeld en tekst, waarbij beeld als preservation copy geldt: zie ook hier (hoogste) eisen voor foto's digitaliseren:

Er zijn dus drie types (2,3,4), die elk eigen eisen stellen. voor 1 en 5 kan doorverwezen worden.

6 digitaliseringsscenarios naargelang doel

  • analoge teksten opzoekbaar maken: toevoegen van metadata (bibliothecarissenmethode)
  • analoge teksten taggen op named entities (archivarissenmethode)
  • analoge teksten ontsluiten door fulltext ocr, daarbij alle vormelijke eigenschappen bewaren (documentmanagement)
  • analoge teksten ontsluiten door fulltext ocr, met aanduiding van inhoudelijke en grafische elementen (named entities, jaartallen, paginanummers, ...) (voer voor neerlandici)
  • onvolkomenheden in ocr opvangen door ook beeld aan te bieden (quick & dirty aanpak)
  • tekst inhoudelijk doorzoekbaar maken en de documentstructuur bewaren, met verlies van analoog origineel (Gutenbergproject-aanpak)

Workflow

  • digitalisering als een proces met verschillende eindproducten
  • afhankelijkheden in kaart brengen
  • koppeling eindproducten aan processtappen en standaarden.
  • Koppeling met budget dat je nodig hebt om te digitaliseren.

Standaarden

  • versie nummers bij standaardformaten.
  • XML
    • is nogal algemeen. beter duiden
    • publiceer welk XML formaat je gebruikt.
  • TEI
    • vooral inhoudelijke structuur coderen. Niet altijd relevant.
    • maar ook om coordinaten in een tekst aan te brengen
    • TEI heeft heel veel opties. Keuzes maken is lastig. >>> er ontstaan TEI profielen voor bepaalde eindproducten
    • TEI vereist een technicus.
    • TEI leercurve is stijl. DARIAH Vlaanderen project aanvraag om grafische interface voor TEI. Meertens heeft ook zo en editors gemaakt. DBNL maakt ook eigen editors.
    • vereenvoudigde set van tags gebruiken.
  • vgl TEI / ALTO
    • TEI: inhoudelijke structuur van pagina >>> evolueert richting layout.
    • ALTO: layout van pagina beschrijving
  • PDF & ePUB
    • afgeleide bestanden.
    • kan je ePUB ook gebruiken als archiveringsbestand voor digital born publicaties.
    • ePUB: voorlopig nog zeer mager.Eigenlijk een soort website. Gebruikt html en CSS > is een tijdelijkpublicatieformaat.
    • layout concept is vrij mager. Maar wel open. Is op lange termijn makkelijk te openen.
    • ePUB3 belooft meer tools en mogelijkheden (HTML5), maar nog in ontwikkeling.
  • ODF
    • zinvol als open variant voor born digital word bestanden.
  • ePUB
    • vooral een raadplegingsbestand dat op termijn gedigitaliseerde tekst makkelijk toegankelijk maakt via tablets/mobiele telefoons.
    • Dus vooral groeiend belang als raadplegingsformaat.
  • METS/MPEG DIDL
    • wanneer complexe publicaties zijn deze standaarden een must
    • afraden om dit in bestandsnamen op te nemen