Publicatie:Verslag Expertmeeting Audiovisuele collecties

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen


Samenvatting


Referentie
Titel Verslag Expertmeeting Audiovisuele collecties (Voorkeurstitel)
Locatie [ ]
Uitgever
Jaar van uitgave 2010
Rechten
Persistent ID


Verslag

  • Onderwerp: Verslag expertmeeting Audiovisuele collecties
  • Datum: 2010-06-11
  • Locatie: FARO
  • Aanwezig: Filip Boudrez (eDAVID), Sam Coppens (IBBT), Bart Ooghe (Erfgoedcel Waasland), Kim Robenseyn (AMSAB), Rony Vissers (PACKED, 10u45) Henk Vanstappen (CEST, verslag)
  • Verontschuldigd: Hendrik Ollivier (AMSAB, vervangen door Kim Robenseyn)


Inleiding

  • Voorstelling van project CEST en de gehanteerde werkwijze. Deze expertmeeting kadert in een brede bevraging van de sector en verwerking van beschikbare expertise betreffende het hanteren van standaarden bij het uitvoeren van digitaliseringsprojecten.
  • Opzet van de expertmeeting: er wordt commentaar gevraagd aan de hand van een aantal use cases, waarvan een ontwerpversie op de projectwiki is gepubliceerd. Er zal worden getracht rekening te houden met de gegeven beperkingen van het opzet, d.i. “standaarden identificeren die essentieel of aangewezen zijn voor degelijk uitvoeren van een digitaliseringsproject”. Dit moet los worden gezien van verwante problemen en noden aan expertise (projectmatig uitvoeren van digitaliseringsprojecten, selecteren van geschikte software, correct toepassen van standaarden, ...)

Algemene opmerkingen

  • Er moet onderscheid gemaakt worden tussen normen enerzijds, en standaarden anderzijds [1]. In dit verband kan ook verwezen worden naar de hiërarchie die eDAVID hanteert voor standaarden, en in het bijzonder voor bestandsformaten (officiële standaarden, de facto standaarden en bestandsformaten van weinig voorkomende commerciële toepassingen of ad hoc ontwikkelde toepassingen bestandsformaten) [2]. Technische standaarden (zoals formaten en codecs) zijn moeilijker op te leggen dan normen. Essentieel is de implementatie van de norm, en er moet vooral op gelet worden dat de gehanteerde standaarden hier in passen.
  • Vaak wordt bij digitaliseringsprojecten enkel aandacht besteed aan de selectie van een goed bestandsformaat. Het belang van bestandsformaten (en codecs) mag echter niet los gezien worden van de gekoppelde metadata. Zonder metadata is een digitaal bestand zelfs zo goed als waardeloos. Voor duurzame bewaring moet het volledige plaatje bekeken worden: bestandsformaat, metadata, en de samenhang daartussen. Een model als Standaard:OAIS biedt hiervoor een goed kader.

Metadataschema's

  • Een metadataschema moet vooral flexibel zijn: het moet de geschikte informatie-elementen bevatten. Het is vooral belangrijk dat dit goed wordt gedocumenteerd en consequent gebruikt. Welk schema wordt geselecteerd, is minder belangrijk.
  • Een bestaand metadataschema kan wel gebruikt worden als checklist (“Heb ik de belangrijkste informatie-elementen opgenomen?”).
  • Standaard:Dublin Core is ontwikkeld voor uitwisseling van gegevens op het web. Het schema is echter 'te mager': velden om bepaalde specifieke eigenschappen van objecten, collecties of deelcollecties te beschrijven ontbreken vaak. Verdienste is dat het een eenvoudig schema is dat het zoeken goed kan ondersteunen.
  • Er moet de overweging gemaakt worden welke granulariteit [3] gewenst is wanneer een metadataschema wordt geselecteerd.
  • Een formaat als Standaard:MPEG-7 is zeer volledig, omdat het ook structurele metadata bevat. Dit geldt in zekere zin ook voor Standaard:PREMIS: een zeer uitgebreide standaard die op verschillende niveaus beschrijft (bitstream, file, structuur). Dergelijke complexe standaarden zijn aangewezen bij het digitaliseren van complexe objecten, (bv. boeken, waarvan de structuur behouden moet worden). PREMIS (overigens bestemd voor preservatiedoeleinden) vereist dat vele gegevens op elk niveau herhaald moeten worden, wat het toepassen van het schema erg 'zwaar' maakt. Anderzijds is het niet de bedoeling dit schema volledig te implementeren, wel de relevante delen. Dergelijke standaarden zijn in ieder geval enkel aangewezen in een 'maximaal scenario'.
  • Er moet rekening mee gehouden worden dat erfgoedorganisaties vaak al een systeem hebben waarin beschrijvende metadata (voor analoge collecties) worden beheerd. Het kan een goede oplossing zijn om dit te behouden en daarnaast een systeem te ontwikkelen waarin de technische metadata beheerd worden. Uiteraard is het dan zeer belangrijk de koppeling (bv. aan de hand van een ID) tussen inhoudelijke beschrijvingen en technische gegevens te verzekeren.
  • Een bijkomende overweging is dat bij beheer van digitale bestanden onderscheid moet gemaakt worden tussen de inhoud of het logisch object, en het fysiek object (de datastreams). Beide stellen andere eisen, en er is vaak geen één op één verhouding tussen logisch en fysiek object. Dit is dus een bijkomend argument om ook het beheer ervan te scheiden, en (dus) afzonderlijke metadataschema's te hanteren.
  • Wat betreft de beschrijvende (inhoudelijke) metadata is het belangrijker om rekening te houden met 'standaard' metadataschema's: de beschrijvingen zijn immers bestemd voor publiek, en worden mogelijk gebruikt in een bredere context. Interoperabiliteit van beschrijvende metadataschema's kan beter verzekerd worden door gemeenschappelijke schema's te hanteren.
  • De Standaard:FIAF Cataloguing Rules zijn mogelijk interessant: het schema is gebaseerd op Standaard:ISBD (maar wordt momenteel herzien).
  • Erfgoedcel Waasland ontwikkelde een schema op basis van Standaard:CIDOC-CRM en Standaard:ISAD(G). Dit bevat een tiental velden.
  • Bij technische en administratieve metadata is die uitwisseling minder van belang, en heeft een organisatie dus meer vrijheid in het bepalen van een schema. Dat geldt natuurlijk niet wanneer op basis van de technische metadata services worden voorzien: in sommige gevallen kan het wel handig zijn om de technische metadata te ontsluiten bv. wanneer de objecten zullen gebruikt worden in transcoding services (i.e. vertalen naar een ander formaat). Voor zo'n service is het heel belangrijk om eerst een juiste identificatie te doen van het bestandsformaat. In deze gevallen helpt natuurlijk goed gestructureerde technische metadata liefst omschreven met een technische metadatastandaard. In dit verband kan verwezen worden naar Standaard:EXIF en Standaard:IPTC.
  • Ook voor technische metadata geldt dat er niet één universeel geschikt schema voorhanden is: bij raster images moeten kenmerken als dpi (ppi), bitdiepte, ... opgenomen. Bij video- en audioformaten wordt gekeken naar de bitrate, etc. Gemeenschappelijk is dat telkens moet bepaald worden wat de karakteristieke elementen zijn die men wil bewaren (de significant properties) - wat mede bepaald wordt door de preserveringsplanning. Wat de significant properties zijn, moet een organisatie zelf bepalen.
  • De 'W3C media annotations working group' heeft een API ontwikkeld waarmee verschillende metadata schema's kunnen gemapped worden. In een crosswalk worden verschillende courante schema's opgenomen. Hieruit zou een minimale elementenset kunnen afgeleid worden. [4]
  • Er kan verwezen worden naar IISO RM Metadata Standard ISO 23081.
  • Naast het bepalen van schema's kan het interessant zijn concrete handleidingen te maken voor het beschrijven van audiovisueel materiaal, vergelijkbaar met het MovE invulboek.

Bestandsformaten: algemeen

  • Het ideale formaat bestaat niet: zo is het ene videoformaat geschikt voor presentatie op het web, maar niet voor post-processing. Dit laatste vereist dat elk beeld afzonderlijk kan bewerkt en bekeken worden, wat bijvoorbeeld het geval is bij Standaard:MJPEG of Standaard:MJPEG2000. Zolang van het ene formaat naar het andere kan geconverteerd worden zonder informatieverlies, is een 'foute' keuze natuurlijk minder dramatisch.
  • Bij elke keuze van bestandsformaat, resolutie e.d. moet ook rekening gehouden worden met het doel van het digitaliseren: gaat het om een vervangingskopie (bv. omdat het origineel vernietigd wordt of niet bewaard kan worden), of enkel om een raadplegingskopie? Nog een overweging hierbij is dat organisaties (vooral heemkundige kringen) vaak originelen uit privé-bezit ontlenen en digitaliseren. Het origineel gaat terug naar de eigenaar, en kan de facto als verloren worden beschouwd.
  • Ook het gebruik kan bepalend zijn: wordt deze kopie verspreid via het web, of via een intranet? Bij lagere bandbreedte heeft het immers geen zin zware bestanden aan te bieden. En verder: welke eisen worden aan de digitale kopieën gesteld: tonen op een beeldscherm, drukwerk, ...? Soms is het verdedigbaar originelen op lage resolutie te scannen, en wanneer gewenst van enkele objecten een nieuwe hogere resolutie-scan te maken (drukwerk). Er moeten m.a.w. economische overwegingen gemaakt worden.
  • Basiselementen bij de keuze van een bestandsformaat en codec zijn:
    • Gebruik zoveel mogelijk open formaten, vermijd een vendor lock in [5].
    • Gebruik proven technology, vermijd 'exotische formaten'. Standaard:TIFF is hiervan een uitstekend voorbeeld: het is een in ICT-termen prehistorisch formaat, dat zijn betrouwbaarheid bewezen heeft en ongetwijfeld ook in een verdere toekomst nog leesbaar zal zijn.
  • Vanuit beheersstandpunt kan het interessant zijn om bestanden om te zetten naar een uniform formaat (alle raster images naar Standaard:TIFF, etc.). Dit vereenvoudigt (toekomstige) migraties, maar is geen vereiste. Wel is vereist dat alle migraties gedocumenteerd worden. Het blijft aanbevolen om de oorspronkelijke bestanden te bewaren.

Bestandsformaten: raster based images

  • Voor raster based images [6] kan Standaard:TIFF zonder compressie (Uncompressed Baseline IBM Standaard:TIFF v6.0) worden aanbevolen. Als alternatief kan Standaard:JPEG2000 worden gebruikt - met name wanneer (de kostprijs van) opslagcapaciteit een belangrijke overweging wordt. Het enige echt goede beslissingscriterium voor de keuze van een bestandsformaat moet echter de vereiste zijn dat voldoende kwaliteit gewaarborgd wordt.
  • Een gelijkaardige overweging kan gemaakt worden wat betreft de resolutie bij raster images: in principe moet 'gewoon' een resolutie gebruikt worden die voldoende is om de informatie te behouden op het gewenste niveau. In de praktijk wordt dit vaak vertaald naar enkele vuistregels: standaard 300 ppi, voor dia's 1200 ppi, voor grotere originelen (plannen e.d.) 100 ppi [7]. In Nederland zijn dergelijke regels voor overheidsarchieven zelfs verplicht. Door deze verplichting in te stellen verzekert men de kwaliteit, maar hier hangt wel een zwaar kostenplaatje aan vast.

Bestandsformaten en codecs: audio

  • Bij digitalisering van audiobestanden geldt 'CD-kwaliteit' vaak als de norm (stereo, 16-bits, 44100 Hz). Vraag is echter of dit vereist is voor opnames van lage kwaliteit (Moet je mono naar stereo omzetten?).
  • Voor audio is WAV aan te bevelen als formaat voor de masterkopie.
  • De in de use case aanbevolen sample frequency voor geluid zou de status 'minimale eis' moeten hebben.
  • De eis om een PCM-codec te gebruiken, impliceert dat er geen compressie mag toegepast worden.
  • De eis “voldoen aan de behoeften van de gebruikersgroep(en)” vloeit voort uit de eis “geen significant informatie- en/of kwaliteitsverlies met zich meebrengen”, en mag dus weg.
  • Als raadplegingskopie kan ook FLAC worden aanbevolen; het is 10% compacter dan MP3. Een ander alternatief is Standaard:AAC.

Bestandsformaten en codecs: video

  • Algemene stelregel is dat - zoals bij andere objecttypes - commerciële en/of niet-gedocumenteerde formaten te mijden zijn. Het in de use case vermelde Standaard:Blackmagic en Standaard:AJA codecs zijn daarom geen goede keuze.
  • Lossy compressie [8] moet in ieder geval vermeden worden: ook wanneer lagere eisen worden gesteld, is het bij digitalisering van (analoge) video af te raden om compressie toe te passen: deze compressiealgoritmes interageren soms op onvolkomenheden (ruis) in het videosignaal, waardoor de storing nog versterkt wordt.
  • Als videoformaat zijn lossless Standaard:MJPEG2000 en Standaard:MXF aanbevolen voor de masters. Een hindernis is echter dat de hardware (video capture kaarten) om digitale video om te zetten, niet voor elke codec beschikbaar is. In eigen land zijn er weinig digitaliseringsbedrijven die over een video capture kaart beschikken die MJPEG2000 kunnen coderen. Wie er wel over beschikt, bezit niet noodzakelijk de nodige afspeelapparatuur, reinigingsmachines en expertise voor het digitaliseren van het brede gamma van obsolete tapeformaten [9].
  • Standaard:D10, dat door DEN wordt aangeraden als conserveringsformaat, zou beter vervangen worden door Standaard:MJPEG2000, dat een beter alternatief vormt.
  • H.264/AVC is niet editeerbaar, en daarom niet geschikt voor broadcasting.
  • De genoemde tapeformaten (Standaard:Digibeta, Betacam SP) voldoen op zich niet aan de formele eisen voor archivering (lossless, open standaard, proven technology, wijd verspreid gebruik, ...). Als aanbeveling mogen deze formaten dus niet meer genoemd worden. Bovendien wordt de apparatuur om deze dragers af te spelen, stilaan obsoleet. Alhoewel multiformaat afspeel- en opnameapparatuur verkrijgbaar blijft, is Sony al gestopt met de productie van leeskoppen voor de klassieke afspeel- en opnameapparatuur voor deze tapeformaten. De toekomst ligt in de opslag van digitale bestandsformaten, eerder dan in de opslag van analoge en digitale videotapeformaten. Dat betekent overigens niet dat het geen goed idee is om bestaande tapes - in goede omstandigheden - te bewaren. Wanneer men video digitaliseert, is het beter aan te bevelen om deze als een bestand op een server of op LTO-tapes op te slaan.
  • Algemeen geldt dat het preserveren van dragers vanuit archiveringsstandpunt niet de beste optie is. In de praktijk blijkt het bewaren van dragers soms echter de enige mogelijk keuze. Vooral in de kunstensector houdt men nog erg aan de drager als object. Ook de onzekerheid m.b.t. de duurzaamheid of problemen met opslagcapaciteit kunnen redenen zijn om videotapes te bewaren. Verschillende televisiearchieven (bijvoorbeeld BBC) hanteren een dubbele bewaarstrategie: video wordt zowel als file als op videotape (digital Betacam) bewaard.
  • Voor het Standaard:DV-formaat (en ook Mini-DV) is het de vraag of dit moet opgewaardeerd worden naar een 'beter' formaat. DV is goed gedocumenteerd, en hoewel het lossy compressie toepast en dus geen goed digitaliseringsformaat is, kan born digital materiaal in DV wel zonder migratie worden bewaard. Wanneer het niet native is, is DV echter te mijden. De enige reden waarom een opwaardering wel zinvol kan zijn is dat het vanuit beheersstandpunt in bepaalde gevallen interessant kan zijn om bestanden om te zetten naar een uniform formaat, bv. om in de toekomst een transcoderingsoperatie voor de ganse collectie in één keer te kunnen doen (zie hoger). Verder geldt dat het niet erg zinvol is om de opname rechtstreeks in een archiveringsformaat uit te voeren (geschikte hardware is zelden beschikbaar). Een betere optie is meteen na opname om te zetten naar een archiveringsformaat. Opnames gebeuren daarom best in zo hoog mogelijke kwaliteit (cf. Standaard:RAW).
  • Bij digitaliseren van analoge film (pellicule) moeten een aantal eigenschappen worden vastgelegd (resolutie, kleurdiepte, beeldverhouding, ...). Zie hiervoor specificaties van EDCine of www.europeanfilmgateway.eu[10].
  • Als verspreidingsformaten (streamen) kan FLV worden aanbevolen. Ook de mogelijkheden van Standaard:HTML 5 moeten worden vermeld, en de formaten die daarin ondersteund worden. Er kan worden verwezen naar Dive into HTML5. Ook Standaard:MXF zou mogelijkheid bieden om te streamen.
  • Voor streaming op een intranet kan Standaard:MPEG-2 worden aanbevolen.
  • Wanneer men wil streamen op een website, is het van belang een licentievrije codec toe te passen. H.264 is daarom niet geschikt.

Voetnoten

[1] Een norm kan gedefinieerd worden als een “algemeen geldende en gepubliceerde regel voor de oplossing van een toestand”. Een standaard “wordt over het algemeen gebruikt als synoniem voor een technische norm”.
[2] F. Boudrez, Standaarden voor digitale archiefdocumenten (Boudrez, Filip), Versie 4.1, Stadsarchief Antwerpen.
[3] Granulariteit duidt op de mate waarin een systeem gedeconstrueerd wordt in kleinere delen. Het duidt op de mate waarin een grotere entiteit onderverdeeld wordt. In de digitale wereld duidt granulariteit van data op de mate waarin datavelden opgedeeld worden. Op Wikipedia vind je een (Engelstalig) voorbeeld. Een hoge mate van granulariteit laat toe om heel flexibel om te gaan met data en de verwerking ervan: elk dataveld kan afzonderlijk geïnterpreteerd, gelinkt, ... worden met een ander relevant dataveld. Een te hoge mate van granulariteit kan echter leiden tot problemen met de capaciteit van een dataverwerkend systeem: dit krijgt zeer veel afzonderlijke informatie-units te verwerken en kan daardoor minder performant worden.
[4] Zie: http://www.w3.org/TR/mediaont-10
[5] 'Vendor lock-in' duidt op de manier waarop klanten afhankelijk worden gemaakt van een bepaald product of dienst van een bepaalde fabrikant. In de softwarewereld kan een vendor lock-in bijvoorbeeld betekenen dat bepaalde software verkocht wordt aan een consument, maar dat indien deze naar een ander softwareproduct (bv. databasesysteem) wil overschakelen, dit niet zonder hoge kosten kan gebeuren. Met betrekking tot formaten kan het bv. zijn dat een bepaald type drager enkel op een bepaald type speler kan gebruikt worden, waarbij drager en speler afkomstig zijn van dezelfde fabrikant.
[6] (edit: verklarende voetnoot raster based images)
[7] 'ppi' staat voor 'pixels per inch'. Het is een uitdrukkingsvorm voor het concept 'resolutie'. Resolutie duidt op het aantal beeldelementen of pixels waaruit een digitaal beeld bestaat. Hoe meer pixels, des te nauwkeuriger het digitale beeld het origineel benadert. De resolutie wordt uitgedrukt in dots per inch (dpi) of pixels per inch (ppi).
[8] Datacompressie is een techniek die met behulp van compressiealgoritmes de hoeveelheid data bij opslag vermindert. Hierbij wordt meestal zoveel mogelijk de impact van de compressie op de (vaak visuele) kwaliteit van de opgeslagen data beperkt. Het voordeel van datacompressie is een kostenvermindering voor de opslag en de overdracht van de digitale bestanden. Als een compressie lossy gebeurt, gaan er gegevens verloren. De originele data kunnen dan na decompressie niet op exact dezelfde wijze worden gereconstrueerd op basis van de gecomprimeerde gegevens.
[9] PACKED vzw voert in samenwerking met het Nederlands Instituut voor Mediakunst (NIMk) een internationaal onderzoek naar de bewaring van obsolete weergave- en afspeelapparatuur. Meer informatie: zie PACKED website.
[10] Zie http://pro.europeana.eu/documents/862189/0/EFG_D4.3_Guidelines_for_Digitisation_digital_storage_and_retrieval.pdf, p. 8: “For film heritage, preservation grade files are generally considered uncompressed JPEG2000 files in 4K (35mm), 2K (16mm), 16 bit in each color. These files are very large (4TB and 1TB per hour content) and are generally not yet considered relevant for preservation due to the cost of maintaining these files.”