Publicatie:Bestandsidentificatie en -validatie

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


Samenvatting

In het vorige nummer van Uitgepakt werd ingegaan op de vraag hoe checksums helpen om de integriteit van je bestanden te garanderen. Maar om te verzekeren dat je je digitale bestanden in de toekomst nog kan openen is er meer nodig. Met behulp van bestandsidentificatie en -validatie kan je voortijdig verouderde bestandsformaten opsporen en indien nodig omzetten naar een duurzaam formaat.


Referentie
Titel Bestandsidentificatie en -validatie (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2014
Rechten CC-BY-SA
Persistent ID


Bestandsidentificatie en -validatie

In het vorige nummer van Uitgepakt werd ingegaan op de vraag hoe checksums helpen om de integriteit van je bestanden te garanderen. Maar om te verzekeren dat je je digitale bestanden in de toekomst nog kan openen is er meer nodig. Met behulp van bestandsidentificatie en -validatie kan je voortijdig verouderde bestandsformaten opsporen en indien nodig omzetten naar een duurzaam formaat.

Door regelmatig de integriteit van je bestanden te bewaken via checksums mag je ervan uitgaan dat de bestanden zelf niet gewijzigd zijn: de énen en nullen waaruit het bestand bestaat zijn gelijk gebleven. Je hebt echter nog geen garantie dat je de bestanden binnen een aantal jaar nog zal kunnen openen. Het is immers mogelijk dat in de toekomst geen software meer beschikbaar is om deze bestanden te openen. Een voorbeeldje hiervan zijn WordPerfect files die niet meer geopend kunnen worden door de huidige kantoorsoftware. Of je digitale videobestanden werden in een formaat gecodeerd dat binnen een aantal jaar helemaal niet meer populair is, waardoor er geen software meer zal ontwikkeld worden voor toekomstige computersystemen om digitale video's van dat formaat af te spelen. Daarom is het belangrijk in kaart te brengen welke formaten in je digitale collectie zitten en regelmatig te controleren of de software die raad weet met deze bestanden, nog voorhanden is. Zo kan je op tijd detecteren of een formaat mogelijk obsoleet kan worden, en tijdig ingrijpen door die bestanden over te zetten naar een ander formaat.

Extensie

Maar hoe weet je over welke bestandsformaten je beschikt? Een eerste stap is vaak om naar de extensie te kijken. De extensie van een bestand is de tekenreeks die na het punt komt in de bestandsnaam. Een bestand met de bestandsnaam document.doc, heeft als extensie .doc en geeft aan dat het bestand waarschijnlijk geopend kan worden met een tekstverwerker. Maar met de extensie alleen heb je vaak je nog niet voldoende informatie. Dat .doc-bestand kan een bestand zijn in het Microsoft Word formaat, maar het kan evengoed om een heel ander formaat gaan[1]. Bovendien kan iemand het bestand handmatig hernoemd hebben en het een andere extensie gegeven hebben. De extensie geeft dus geen absolute zekerheid over het formaat van het bestand. Vaak is het ook belangrijk te weten om welke versie van een bestandsformaat het gaat, zodat je het bestand ook met de overeenkomstige softwareversie opent. Ook daarover geeft een extensie geen duidelijk antwoord. Het juiste formaat en de gebruikte versie worden vaak aangegeven via onzichtbare meta-informatie in het bestand. Door deze informatie te lezen weet de software waarmee je het bestand wil openen, exact hoe hij het bestand moet benaderen. Er bestaat software[2] die gespecialiseerd is in het lezen van deze informatie en je dus het formaat en de versie van al je bestanden kan vertellen.

Bestandsidentificatie gaat hand in hand met bestandsvalidatie. Eenmaal je weet welk formaat je bestand heeft wil je immers ook weten of het bestand ook aan de formaatspecificatie beantwoordt. Die specificatie legt de structuur van het bestand vast. Een bestand is valide als het beantwoordt aan de formele en semantische eisen opgelegd door de formaatspecificatie. Bij bestandsvalidatie wordt de structuur van het bestand bekeken en nagegaan of er geen fouten gemaakt zijn bij het implementeren van de specificatie. Zulke fouten kunnen immers betekenen dat het bestand niet door alle software gelezen wordt.

Er zijn een aantal momenten in de levensloop van je digitale objecten waarop het nuttig kan zijn bestandsidentificatie en -validatie uit te voeren. Een voorbeeld; je laat een aantal historische tijdschriften scannen bij een extern bedrijf, hebt hierbij natuurlijk de CEST-richtlijnen[3] geraadpleegd en deze doorgegeven aan de digitaliseringsfirma. Na de digitalisering krijg je de bestanden terug met de extensie .TIF. Je wil echter weten of deze bestanden werkelijk aan de gekozen TIFF standaard conformeren. Hiervoor kan je dan JHOVE[4] gebruiken. JHOVE is een tool die zowel bestandsidentificatie als -validatie uitvoert. JHOVE analyseert je bestanden en geeft aan of ze inderdaad volledig conformeren aan de specificatie van het formaat zodat je ze met een gerust hart kan bewaren.

Het probleem met tools zoals JHOVE is dat deze slechts een beperkt aantal formaten kunnen valideren[5]. Voor meer exotische formaten moet je vaak gespecialiseerde tools gebruiken. Dit maakt dat je voor grote digitale collecties al snel een heel complexe workflow krijgt.

Dit artikel werd geschreven door Joris Janssens(PACKED-medewerker) en verscheen in META 2013/9 in de reeks Uitgepakt.

  1. Zie voor een lijst van alle software die doc als extensie gebruikt, maar een ander bestandsformaat hanteert http://filext.com/file-extension/DOC
  2. Een voorbeeldje van zo’n tool is DROID. Zie https://www.projectcest.be/wiki/Software:DROID
  3. UncompressedBaselineIBMTIFF v6.0 . Zie http://projectcest.be/index.php/Fotocollectie_digitaliseren
  4. Zie http://www.projectcest.be/index.php/JHOVE
  5. Voor JHOVE: GIF, JPEG2000, JPEG, TIFF afbeeldingen, AIFF, WAVE audio, PDF, HTML, XML