Identificeer bestandsformaten

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken

Workflow algemeen schonen.jpg

Benodigdheden

Wat?

Tijdens deze stap worden de bestandsformaten die in het archief voorkomen geïdentificeerd.

Waarom?

De identificatie van bestandsformaten is noodzakelijk voor het uitvoeren van een geschikt preserveringsbeleid. Wanneer je weet uit welke formaten het archief bestaat, weet je ook of en wanneer een bepaald bestand gemigreerd moet worden naar een ander formaat opdat het langer bewaard zou kunnen worden.

Wanneer?

Het identificeren van de bestandsformaten gebeurt op het einde van het proces schonen.

Hoe?

Idealiter gebeurt de identificatie van bestandsformaten niet alleen aan de hand van de bestandsextensie, maar ook aan de hand van de inhoud van het document. Gebruik hiervoor een tool. Mogelijkheden zijn:

Opgelet!

Bovenstaande tools werken goed, maar hebben elk hun beperkingen. Zo is het voornamelijk moeilijk om zeer oude bestandsformaten te identificeren. Vertrouw dus niet altijd blindelings op de output van de tools en hou rekening met foutmeldingen omdat ze een bepaald formaat niet herkennen.

Bovenstaande tools zijn uitgebreid getest in het najaar van 2015. Daaruit bleek dat Siegfried - de tool die Archivematica gebruikt voor de identificatie - het meest accuraat werkt.