Publicatie:Checksums als middel om de integriteit van bestanden te bewaken?

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

Bitrot is het fenomeen waarbij binair opgeslagen gegevens verloren gaan of onbedoeld wijzigen. De oorzaak ligt meestal bij de mechanische slijtage van de drager. Maar ook fouten bij het kopiëren van bestanden kunnen gegevensverlies tot gevolg hebben. Een checksum kan je helpen om dergelijke fouten op te sporen.


Referentie
Titel Checksums als middel om de integriteit van bestanden te bewaken? (Voorkeurstitel)
Locatie META nummer 2013/9
Uitgever
Jaar van uitgave 2013
Rechten CC-BY-SA
Persistent ID


Auteur

Henk Vanstappen (PACKED vzw)

Checksums als middel om de integriteit van bestanden te bewaken?

Bitrot is het fenomeen waarbij binair opgeslagen gegevens verloren gaan of onbedoeld wijzigen. De oorzaak ligt meestal bij de mechanische slijtage van de drager. Maar ook fouten bij het kopiëren van bestanden kunnen gegevensverlies tot gevolg hebben. Een checksum kan je helpen om dergelijke fouten op te sporen.

Het principe van een checksum of controlegetal is erg eenvoudig: op een reeks letters of cijfers wordt een berekening uitgevoerd, met een nieuwe, kortere tekenreeks als uitkomst. Door die berekening achteraf opnieuw uit te voeren en te vergelijken met de vorige uitkomst, kan worden gecontroleerd of de reeks nog correct is. Een bekend voorbeeld is het laatste cijfer van een ISBN-nummer of de eindcijfers van je rekeningnummer. In de informatica wordt deze techniek gebruikt bij datacommunicatie en -opslag. Hierbij wordt een algoritme uitgevoerd op een reeks bits. Wanneer daarvan één bit verandert, levert dit een ander controlegetal op en is het duidelijk dat er iets mis is. Zo’n controlegetal kan op elke willekeurige reeks bits worden berekend, dus bijvoorbeeld ook op een digitale afbeelding of tekstbestand.

MD5

Resultaat van een controle met MD5Checker. Het eerste bestand in de lijst (00000153.jpg) blijkt gewijzigd.

Het Message Digest Algorithm 5 (MD5) geeft een checksum van 32 tekens, waarmee meer dan 3,4128 verschillende combinaties mogelijk zijn. De kans dat twee bestanden hetzelfde controlegetal opleveren, is dus op zijn zachts gezegd miniem. Met een MD5 checksum heb je dus een quasi unieke vingerafdruk van elk bestand. Oorspronkelijk werd MD5 ontworpen als beveiligingsalgoritme, maar intussen bleek dat MD5 daarvoor te kwetsbaar is. Als controlemiddel volstaat het echter nog steeds, bijvoorbeeld bij gebruik in een digitaal depot. Hierbij worden MD5 codes gecreëerd voor of tijdens de opname in het edepot. Op regelmatige tijdstippen en/of bij raadpleging van een bestand, wordt de integriteit van het bestand gecontroleerd aan de hand van eerder gemaakte checksums.

Checksum checkers

Om MD5 checksums te gebruiken zijn een groot aantal – gratis – programma’s beschikbaar[1]. Het principe is steeds hetzelfde en even eenvoudig: het programma creëert checksums van een aantal bestanden. Het resultaat is een klein tekstbestand, dat je samen met de bestanden bewaart. Wanneer je de bestanden wil controleren, vergelijkt het programma de nieuwe checksums met die in het tekstbestand (zie afbeelding). Wil je zeker zijn dat er niet mee is geknoeid, dan kan je het tekstbestandje ook op een andere locatie opslaan.

Voetnoten

  1. Een overzicht van voorbeelden van checksum checkers vind je op en.wikipedia.org/wiki/Checksum#Checksum_tools.