Publicatie:Resurrection Lab deliverable - L.2.2. Volledige documentatie van de workflow voor de identificatie van data

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

In maart 2017 zijn PACKED vzw en iMAL gestart met Resurrection Lab, een tweejarig onderzoeksproject dat financieel wordt ondersteund door Innoviris, het Brusselse Instituut voor Onderzoek en Innovatie. Het doel is zowel methodes, tools en diensten voor de preservering van born-digital content te implementeren als een mediabibliotheek te creëren die is gebaseerd op emulatie. Die techniek, waarbij een hardwareplatform op softwarematige manier wordt gesimuleerd, biedt mogelijkheden voor de ontwikkeling van een preserveringsstrategie voor digitale creaties.

PACKED vzw is binnen Resurrection Lab verantwoordelijk voor het opzetten van een workflow voor de identificatie van data die van obsolete dragers gecapteerd werd. Deliverable L.2.2. geeft een beschrijving van de tools die uitgetest werden en de voorgestelde workflow.


Referentie
Titel Resurrection Lab: deliverable L.2.2. Volledige documentatie van de workflow voor de identificatie van data (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2018
Rechten CC-BY-SA
Persistent ID


Inleiding

In maart 2017 zijn PACKED vzw en iMAL gestart met Resurrection Lab, een tweejarig onderzoeksproject dat financieel wordt ondersteund door Innoviris, het Brusselse Instituut voor Onderzoek en Innovatie. Het doel is zowel methodes, tools en diensten voor de preservering van born-digital content te implementeren als een mediabibliotheek te creëren die is gebaseerd op emulatie. Die techniek, waarbij een hardwareplatform op softwarematige manier wordt gesimuleerd, biedt mogelijkheden voor de ontwikkeling van een preserveringsstrategie voor digitale creaties.

Het preserveren van born-digital content vereist dat de digitale inhoud eerst van de obsolete gegevensdrager naar een hedendaagse gegevensdrager overgebracht wordt. Eens de gegevens van de originele drager gehaald zijn, dient de data geïdentificeerd te worden. Dat is noodzakelijk om te bepalen welke hardwareomgeving, besturingssysteem en software nodig zijn om toegang te hebben tot de inhoud van de digitale drager. PACKED vzw heeft verschillende tools getest voor het bepalen van de workflow.

Methode

Er worden twee elementen geïdentificeerd:

  1. het bestandsysteem van de disk image;
  2. de bestandsformaten van de bestanden op de disk image.

Disk images zijn bit-voor-bitkopieën van een drager en benaderen daarom zo dicht mogelijk het origineel. Disk images kunnen softwarematig door een computer gelezen worden, zoals een externe drager (bv. een optische schijf of diskette).

De test werd uitgevoerd met disk images die gemaakt zijn van cd-roms van iMAL[1] (191 disk images, totale omvang: 85,34 GB) en met de logical images die gecreëerd werden bij het capteren van data van obsolete dragers van Opera Ballet Vlaanderen[2] (25.978 bestanden, totale omvang: 47,64 GB). Logical images zijn kopieën van een drager waarbij enkel de inhoud (de bestanden) en niet de systeeminformatie van de drager gekopieerd wordt. Het zijn, in tegenstelling tot disk images, geen exacte kopieën van een drager.

De disk images van iMAL konden opgedeeld worden in twee categorieën:

  • ISO 9660 cd-roms: ISO 9660 is een gestandaardiseerd bestandssysteem ontwikkeld voor optische schijven;
  • hybride cd-roms: dit zijn cd-roms die uit twee partities bestaan. De ene partitie bestaat uit een ISO 9660 image; het andere deel uit een ander bestandssysteem. Deze vorm werd meestal gebruikt voor cd-roms die zowel op Apple Macintosh- als op DOS/Windows- computers gebruikt werden. Apple Macintosh-computers gebruiken de partitie met het bestandssysteem voor Macintosh (HFS); de DOS/Windows PC de ISO 9660 image.

De kopieën die gemaakt werden van de dragers van Opera Ballet Vlaanderen waren logical images, wat impliceert dat het bestandssysteem niet bewaard werd.

Identificeer het bestandssysteem

Bestandssystemen zijn softwarematige indelingen van een opslagmedium, zoals een harde schijf of een externe drager, dat het besturingssysteem gebruikt om de data op het medium weer te geven als bestanden en om ze te kunnen gebruiken in applicaties. Er bestaan zowel bestandssystemen die enkel door bepaalde computers gebruikt kunnen worden als bestandssystemen die op meerdere besturingssystemen toegankelijk zijn.[3] Veel voorkomende bestandssystemen zijn NTFS, FAT, HFS+ en ext4. HFS en HFS+ zijn bestandssystemen die gebruikt worden voor Classical Macintosh en macOS, en worden ook enkel ondersteund door die besturingssystemen. Om een emulatieomgeving te kiezen met een besturingssysteem dat de disk images kan lezen, is het dus belangrijk om te weten welk bestandssysteem de disk image gebruikt.

PACKED vzw heeft drie tools uitgetest:

Enkel de disk images van cd-roms van iMAL werden gebruikt voor de test. Uit analyse van de resultaten bleek disktype de meest accurate en snelste tool te zijn.

Identificeer de gebruikte bestandsformaten

Om vervolgens te weten welke software in de emulatieomgeving aanwezig moet zijn, is het nodig om de formaten van de bestanden die deel uitmaken van de disk image te kennen. Daarvoor hebben we identificatietools gebruikt. Zulke tools maken gebruik van een combinatie van signatures om de bestanden te herkennen, m.n. de bestandsextensie en een sequentie van bits in de bitstream die de interne handtekening van het bestand karakteriseren.

PACKED vzw heeft de volgende tools uitgetest:

Uit de resultaten stelden we vast dat File Utility, FIDO en FITS minder accuraat zijn dan DROID, Siegfried en Brunnhilde. DROID, Siegfried en Brunnhilde zijn even accuraat, maar hebben verschillen in functionaliteit. DROID en Siegfried zijn de twee snelste tools.[4]

  • DROID beschikt over een overzichtelijke grafische gebruikersomgeving en is in staat om de inhoud van disk images met het ISO 9660-bestandssysteem te lezen, wat het een zeer geschikte tool maakt voor het in batch analyseren van de inhoud van dat soort disk images.
  • Siegfried is een command line tool. Het kan niet de inhoud van een disk image analyseren, maar is wel eenvoudiger dan DROID om te integreren in scripts om het proces te automatiseren.
  • Brunnhilde is een tool dat vooral nuttig is om de inhoud van een disk image te analyseren. Het gebruikt Siegfried als identificatietool en zorgt er voor dat de bestanden van de disk images geëxporteerd worden, dat een virusscan uitgevoerd wordt en dat een rapport gemaakt wordt dat o.m. de dubbele bestanden weergeeft, bestanden met fouten en het aantal bestanden per bestandsformaat. Brunnhilde heeft zowel een command line interface als een grafische gebruikersomgeving, maar werkt in zijn volledige functionaliteit enkel op Linux. Door de extra activiteiten die het uitvoert, is het een tragere tool dan DROID en Siegfried.

Samenvatting

Voor het behandelen van disk images werden volgende tools gekozen:

  • disktype voor het identificeren van het bestandssysteem;
  • DROID voor het analyseren van bestanden op disk images met het ISO 9660-bestandssysteem;
  • Brunnhilde voor het analyseren (en extraheren) van disk images van andere bestandssystemen, zoals bv. HFS en FAT12;
  • DROID en Siegfried voor het analyseren van ‘logical images’ of bestanden die van disk images geëxporteerd zijn. Siegfried zou iets beter zijn in het identificeren van obscure bestandsformaten[5], maar zelf hebben we weinig verschil vastgesteld tussen de twee tools.

Testen

De bovenstaande workflow werd nog eens extra getest met de disk images die we verkregen na het capteren van 3,5-inch en 5,25-inch diskettes van Liberaal Archief, ADVN en HeK. disktype en Siegfried werden gebruikt nadat de bestanden van de disk images geëxporteerd werden.

Rapport

De volledige resultaten kun je raadplegen in de deliverable L2.2. Complete documentation of the workflow implemented for the identification and characterisation of the data.

Referenties

  1. Voor meer informatie over iMAL, zie https://www.imal.org/.
  2. Voor meer informatie over Opera Ballet Vlaanderen, zie https://operaballet.be/nl.
  3. Voor meer informatie, zie https://nl.wikipedia.org/wiki/Bestandssysteem.
  4. File Utility was de snelste tool, maar die tool is niet zo accuraat.
  5. Bron: https://practicaltechnologyforarchives.org/issue8_walsh/

Contactgegevens

Nastasia Vanderperren: nastasia@packed.be