SODA:Verwijder dubbels

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen

Workflow algemeen schonen.jpg

Dubbels verwijderen

Benodigdheden

Wat?

Vaak worden dezelfde bestanden in verschillende mappen bewaard waar ze niet thuis horen. Tijdens deze fase wordt door middel van softwaretools gezocht naar dubbele mappen en bestanden die verwijderd mogen worden.

Waarom?

Dubbels nemen onnodige ruimte in. Het verwijderen van overbodige bestanden komt de ordening van het digitaal archief, en dus ook de doorzoekbaarheid van bestanden ten goede.

Wanneer?

Dubbels worden verwijderd nadat compressie, encryptie en paswoorden verwijderd zijn uit mappen en bestanden.

Hoe?

Bij het toekennen van checksums krijgt elk uniek bestand een unieke checksum toegekend. Wanneer twee bestanden een identieke checksum hebben, gaat het om eenzelfde bestand.

Voor het identificeren en het verwijderen van dubbels bestaan er verschillende softwaretools. Die tools gaan op zoek naar identieke checksums om dubbels te herkennen. Gebruik hiervoor een tool in je toolbox. Mogelijkheden zijn:

Documenteer welke dubbels je verwijderd hebt, wanneer en waarom. Bewaar een logbestand van deze handeling (zie metadataformulier).

Opgelet!

Dubbele bestanden (dus bestanden met een identieke checksum) kunnen wel een andere bestandsnaam hebben.

Bij het verwijderen van dubbels moet de beslissing genomen worden welke dubbels juist verwijderd worden, welke versie van de dubbels juist het moederbestand is. Het is daarom raadzaam om aan de hand van de technische metadata (cf. directory list) de oudste versie van de dubbels te identificeren en deze als moederbestand te bewaren.

Enige voorzichtigheid is geboden bij het verwijderen van dubbels. Dubbels kunnen in verschillende dossiers thuishoren. Daarom is het aangewezen om eerst na te gaan waar de dubbels zich juist bevinden:

  • Wanneer dubbels in eenzelfde map zitten, kunnen ze sowieso verwijderd worden.
  • Wanneer dubbels in verschillende mappen voorkomen, kunnen ze deel uitmaken van dat dossier. Hiervoor is een inhoudelijke selectie nodig. Dit valt echter buiten de scope van deze handleiding.

Wanneer je toch alle dubbels verwijderd, documenteer dit dan zorgvuldig. Leg eventueel links naar het moederbestand waar de dubbels verwijderd zijn.

De archiveringstool Archivematica controleert niet of er dubbels aanwezig zijn in het archief. Gebruik daarom een andere tool om dubbels op te sporen alvorens het archief op te laden in Archivematica.

Meer lezen?

AIMS white paper