Publicatie:Verslag Expertmeeting Digitaliseren Tekst

Samenvatting

Referentie

Titel	Verslag Expertmeeting Digitaliseren Tekst (Voorkeurstitel)
Locatie	[ ]
Uitgever	[packed.be PACKED vzw]
Jaar van uitgave	2012
Rechten
Persistent ID

Trefwoorden

Onderwerp: Verslag expertmeeting Digitalisering Tekst
Datum: 2012-06-27
Locatie: Koninklijke Bibliotheek Den Haag
Aanwezig: Peter Boot (),Marian Hellema (IMPACT/KB), Edwin Klijn (), Rene van Stipriaan (Digitale Bibliotheek van de Nederlandse Letteren), Nicoline van der Sijs (Meertens Instituut) / David Copoolse (Vlaamse Erfgoedbibliotheek), Thomas Crombez (Universiteit Antwerpen), Robert Gillesse (DEN), Wietske van den Heuvel (DEN), Bert Lemmens (PACKED), Henk Vanstappen (PACKED)

Verschillende aspecten van digitalisering tekst:

digitale beeld/machine-leesbare tekst
inhoud (betekenis die in de tekst zit)/vorm (betekenis die in de vorm van het document zit)

Herkomst van digitale tekst

belangrijk nieuw element: data over hoe de bron tot stand is gekomen/aanleiding voor de tekst
hoe betrouwbaar is de OCR >> moet je als instelling zelf aangeven.
elke digitale tekst is een nieuwe editie van een tekst, dus heeft nood aan editieverantwoording.
nood aan procedures, gebruikte software
elke digitalisering heeft nood aan beschrijving (metadata):
- welk analoog origineel (editie of exemplaar): bibliografische metadata
- wanneer, waarom, door wie, .. gescand
- gebruikte scansettings en -software
- gebruikte ocr software, betrouwbaarheid
- alle noodzakelijke metadata om digitale bestanden als een geheel te behouden:
  - bestandsnaam
  - bestandsnaam + mappenstructuur
  - csv of xml-gebaseerde beschrijving
betrouwbaarheid van ocr: hoe wordt dit bepaald? bestaan er afspraken over?

3 Kwaliteitsniveaus

min: beeld zonder metadata
midden: metadata aan de buitenkant
max: volledige beschrijving structuur

5 digitaliseringsscenario's naargelang gebruik

digitaal beeld: zie foto's digitaliseren
digitaal beeld en (descriptieve, structurele) metadata
digitaal beeld en tekst
tekst
digitaal beeld en tekst, waarbij beeld als preservation copy geldt: zie ook hier (hoogste) eisen voor foto's digitaliseren:

Er zijn dus drie types (2,3,4), die elk eigen eisen stellen. voor 1 en 5 kan doorverwezen worden.

6 digitaliseringsscenarios naargelang doel

analoge teksten opzoekbaar maken: toevoegen van metadata (bibliothecarissenmethode)
analoge teksten taggen op named entities (archivarissenmethode)
analoge teksten ontsluiten door fulltext ocr, daarbij alle vormelijke eigenschappen bewaren (documentmanagement)
analoge teksten ontsluiten door fulltext ocr, met aanduiding van inhoudelijke en grafische elementen (named entities, jaartallen, paginanummers, ...) (voer voor neerlandici)
onvolkomenheden in ocr opvangen door ook beeld aan te bieden (quick & dirty aanpak)
tekst inhoudelijk doorzoekbaar maken en de documentstructuur bewaren, met verlies van analoog origineel (Gutenbergproject-aanpak)

Workflow

digitalisering als een proces met verschillende eindproducten
afhankelijkheden in kaart brengen
koppeling eindproducten aan processtappen en standaarden.
Koppeling met budget dat je nodig hebt om te digitaliseren.

Standaarden

versie nummers bij standaardformaten.
XML
- is nogal algemeen. beter duiden
- publiceer welk XML formaat je gebruikt.
TEI
- vooral inhoudelijke structuur coderen. Niet altijd relevant.
- maar ook om coordinaten in een tekst aan te brengen
- TEI heeft heel veel opties. Keuzes maken is lastig. >>> er ontstaan TEI profielen voor bepaalde eindproducten
- TEI vereist een technicus.
- TEI leercurve is stijl. DARIAH Vlaanderen project aanvraag om grafische interface voor TEI. Meertens heeft ook zo en editors gemaakt. DBNL maakt ook eigen editors.
- vereenvoudigde set van tags gebruiken.
vgl TEI / ALTO
- TEI: inhoudelijke structuur van pagina >>> evolueert richting layout.
- ALTO: layout van pagina beschrijving
PDF & ePUB
- afgeleide bestanden.
- kan je ePUB ook gebruiken als archiveringsbestand voor digital born publicaties.
- ePUB: voorlopig nog zeer mager.Eigenlijk een soort website. Gebruikt html en CSS > is een tijdelijkpublicatieformaat.
- layout concept is vrij mager. Maar wel open. Is op lange termijn makkelijk te openen.
- ePUB3 belooft meer tools en mogelijkheden (HTML5), maar nog in ontwikkeling.
ODF
- zinvol als open variant voor born digital word bestanden.
ePUB
- vooral een raadplegingsbestand dat op termijn gedigitaliseerde tekst makkelijk toegankelijk maakt via tablets/mobiele telefoons.
- Dus vooral groeiend belang als raadplegingsformaat.
METS/MPEG DIDL
- wanneer complexe publicaties zijn deze standaarden een must
- afraden om dit in bestandsnamen op te nemen

Publicatie:Verslag Expertmeeting Digitaliseren Tekst

Inhoud

Verschillende aspecten van digitalisering tekst:

Herkomst van digitale tekst

3 Kwaliteitsniveaus

5 digitaliseringsscenario's naargelang gebruik

6 digitaliseringsscenarios naargelang doel

Workflow

Standaarden

Navigatiemenu

Publicatie:Verslag Expertmeeting Digitaliseren Tekst

Verschillende aspecten van digitalisering tekst:

Herkomst van digitale tekst

3 Kwaliteitsniveaus

5 digitaliseringsscenario's naargelang gebruik

6 digitaliseringsscenarios naargelang doel

Workflow

Standaarden

Navigatiemenu

Zoeken