Projecten:Digital Repair Cafe

Uit Cultureel Erfgoed Standaardentoolbox
(Doorverwezen vanaf Projecten:Digital Repair Cafe)
Ga naar: navigatie, zoeken

Digital Repair Cafe is een project van Amsab-ISG met de AIDA-partners, gesteund met een projectsubsidie van de Vlaamse Overheid. Dit project voorziet in de uitbouw van een centrale dienst om gegevens van obsolete dragers te capteren. Met obsolete dragers bedoelen we alle dragers van digitale gegevens die technisch nog werken, maar die niet meer gelezen kunnen worden door moderne werkstations. Voorbeelden zijn o.a. 5,25-inch floppy disks, Zip disks, Jaz disks, magneto-optische diskettes en QIC-80 tape.

Deze obsolete dragers inlezen is complex. Niet alleen moet de juiste leesapparatuur gevonden worden, ook moet deze leesapparatuur kunnen aangesloten worden op moderne werkstations. Dit behelst het opzetten van een opstelling waarbij de verschillende connectors en interfaces (poorten) d.m.v. adapters met elkaar kunnen worden verbonden met apparatuur om de inhoud op de gegevensdragers niet te wijzigen. Het behelst tevens het capteren van de nodige gegevens over bestandssystemen, zodat de inhoud door hedendaagse besturingssystemen kan worden begrepen. Bovendien moet er software voorzien worden om de volledige inhoud van de drager ongewijzigd over te zetten naar een hedendaagse gegevensdrager. Tot slot dient de kwaliteit van dit hele proces te worden gegarandeerd, door het registreren van fixity data (checksums) en administratieve metadata (bv. datum van captatie en gebruikte software).

Uitgangspunt van het project is dat iedere erfgoedinstelling, van het grootste museum tot de kleinste heemkundige kring, geconfronteerd wordt met dit soort materiaal, maar dat het onmogelijk is - en bijzonder inefficiënt zou zijn - indien iedere instelling zelf een opstelling zou creëren om verschillende types van digitale dragers in te lezen. Door middelen en kennis te poolen, menen we dat datacaptatie veel efficiënter en duurzamer kan gebeuren, met de nodige kwaliteitscontroles.

Daartoe willen we een overzicht creëren van alle types obsolete dragers binnen de collecties van de partners; de technologie in kaart brengen die nodig is om de dragers in te lezen; de werkprocessen in kaart brengen en de nodige hard- en software-installaties uitbouwen; pilootprojecten opzetten met de partners om de obsolete dragers in te lezen en een businessmodel opstellen waarmee dit dienstenmodel duurzaam kan worden georganiseerd.

Stap 1: Inventarisatie van de dragers en benodigde hardware

Om te weten voor welke dragers leesapparatuur voorzien moet worden, dienden we te weten welke dragers voorkomen in de collecties van de partnerinstellingen. Er werd een sjabloon opgesteld waarmee de partners deze gegevens konden invullen. Om tot een gedeeld capturing lab te komen, registreerden de partners ook de aanwezige leesapparatuur. Dit vermeed dat we voor iedere drager een leesapparaat moesten zoeken.

Ontwikkeling van documentatie en sjabloon

Deze taak werd uitgevoerd door meemoo.

Voor de ontwikkeling van de documentatie en het sjabloon waarin de verschillende partners hun dragers konden registreren, baseerden we ons op de registratieformulieren die bij enkele partners reeds in gebruikt waren, de ervaringen die opgedaan werden tijdens het project Resurrection Lab[1] en de AV-inventarisatie van meemoo (toen: VIAA). Zo kwamen we tot een sjabloon in Google Sheets dat uit twee tabbladen bestond:

  1. Een algemeen overzicht waarin de hoeveelheden per type drager doorgegeven moesten worden. Voor dit overzicht baseerden we ons op de dragertypes voor data die gedocumenteerd waren op de website Museum of Obsolete Media. Dit overzicht zal vervolgens gebruikt worden om prioritaire dragers te identificeren.
  2. Een registratieformulier waarin een aantal gegevens ingevuld moesten worden die belangrijks zijn vanuit 1) technisch oogpunt (zoals formaat, dragertype, opslagcapaciteit, formattering en datering) en 2) identificatie (ID, labeltekst, eventuele andere opschriften op drager die iets kunnen zeggen over de inhoud)

Het overzicht uit tabblad 1 werd voorzien van zoveel mogelijk documentatie en informatie om de dragers te kunnen identificeren. Deze informatie vormde de opstart voor de handleiding voor het herkennen van obsolete dragers (zie stap 5). In het registratieformulier van tabblad 2 werd getracht om zoveel mogelijk met dropdownlijsten te werken zodat de deelnemende archiefinstellingen uniform het formulier invulden. Ga zelf aan de slag met het sjabloon.

Opstart en registratie van de dragers

De registratie werd opgestart door meemoo en uitgevoerd door de deelnemende archiefinstellingen.

Door het uitwerken van de documentatie (in o.m. het sjabloon) werd de registratie opgestart. Er werd tevens een korte presentatie gemaakt met informatie om dragers te herkennen en identificeren (zie Stap 5: Ontwikkeling didactisch materialen voor deelnemende archiefinstellingen).

Leesapparatuur en technische afhankelijkheden definiëren

Op de AIDA-stuurgroep van 30 juli 2019 werden de prioritaire dragers vastgelegd op basis van de hoeveelheden en het belang van deze dragers voor de partners. Verschillende formaten 3,5 inch diskettes, 5,25 inch floppies, optische schijven (CD-ROM, CD-R, CD-RW, DVD-R(W), DVD+R(W)), Jaz disk, Zip disk en de tapeformaten DDS, Travan en QIC werden als prioritair naar voren geschoven. Hiervoor werden de technische afhankelijkheden bepaald. Er werd tevens een overzicht gemaakt van de leesapparatuur die zich bij alle partners bevonden. Op basis van de interface van de leesapparatuur, d.i. de poort(en) die het leestoestel heeft om verbonden te worden met een werkstation, bijvoorbeeld USB - wisten we ook welke kabels we moesten zoeken om ze te verbinden met een hedendaagse computer.

Resultaten

Drager Totaal
1,8 inch hard disk 1
2,5 inch hard disk 3
3,25 inch floppy 2
3,5 inch floppy 1297
3,5 inch HD floppy 1007
5,25 inch floppy 426
8 inch floppy 12
9 track tape 1
CompactFlash Type 1 1
CD-R 1159
CD-ROM 24.
CD-RW 51
Data8 2
DDS 74
Ditto 3
DVD-R 376
DVD-RW 3
DVD+R 38
DVD+RW 8
flippy disk 50
floppy ROM 1
fujifilm PhotoDisc CD-R 6
HP Mini Data Cassette 3
Gold CD-R 5
Iomega Jaz 5
Iomega Zip 180
M.O. disk (3,5 inch) 3
Memory stick 1
Memory stick micro (M2) 1
Nomaï 44MB 1
QIC / Data Cartridge 1
QIC minicartridge 5
QIC-EXtra 2
Superdisk LS-120 1
SyQuest (5,25 inch) 1
Travan 26
USB flash drive 4
Totaal 4784

Tabel 1: een overzicht van alle dragers over alle partners heen.

type leestoestel interface
SCSI-1 SCSI-2 USB IDE floppy data cable Parallel Port
3,25” floppy 1
3,5" SD/DD floppy 5 9
5,25” floppy 3
8” floppy 1
Blu-Ray 1
diverse types geheugenkaarten 2
CD-RW 2 2
DDS 1 1
DVD-R 1
interne hard disks (2,5” en 3,5”) 1
Jaz disk 5
M.O.  disk 2
SuperDisk 1
SyQuest 1
Travan 1 1
Zip disk 1 2 2

Tabel 2: een lijst van alle leesapparatuur die zich ofwel in het Digital Repair Cafe, ofwel bij de projectpartners bevinden. Het veld interface bepaalt welke kabel nodig is om de leesapparatuur te verbinden met het werkstation.

Stap 2: Opstelling bouwen en werkprocessen uitwerken

Om de gegevens van oude dragers te halen moet aan een hele reeks van technische afhankelijkheden worden voldaan. Het volstaat niet alleen om de oude leesapparatuur aan te kopen. Deze apparatuur is immers ook vaak zelf verouderd en moet aan moderne werkstations kunnen worden gekoppeld. Dit gebeurt door een reeks van kabels, tussenstukken en adapters. Deze reeks moet voor ieder type drager worden opgesteld en worden gedocumenteerd m.b.v. handleidingen. Het repliceren van de data dient gecontroleerd te gebeuren, met voldoende integriteitstest, registratie van administratieve metadata en bij voorkeur door een disk image te nemen als tussenstap. Hiervoor moet software worden ingeschakeld zoals FTK Imager, DDrescue en/of BitCurator.

Deze stap bestaat uit vijf subtaken die in iteraties uitgevoerd werden:

  • Opstelling maken op basis van de aanwezige dragers
  • Opstelling documenteren
  • Werkprocessen opstellen voor het capteren van obsolete dragers
  • Werkprocessen documenteren
  • Testen en bijstelling

Al deze taken werden uitgevoerd door meemoo die reeds ervaring had met deze materie via Resurrection Lab en captaties van verouderde dragers van Opera Ballet Vlaanderen, ADVN, HeK (House for Electronic Arts) en Liberaal Archief/Liberas.

Opstelling maken op basis van de aanwezige dragers

Via Resurrection Lab beschikte meemoo reeds over een werkstation en enkele leestoestellen. Om de resterende dragers te kunnen lezen, werd aanvullende leestoestellen en kabels gezocht via de tweedehandsmarkt en via giften. Enkel voor de QIC-tapes werd er geen apparatuur gevonden. Er werd voornamelijk voor oudere tweedehandsapparatuur gekozen omdat hedendaagse leesapparatuur niet altijd oudere dragers kan lezen of omdat er geen hedendaagse apparatuur meer beschikbaar is. Kabels om de leesapparatuur te verbinden met een computer werden eveneens aangekocht. Er werd zoveel mogelijk naar leesapparatuur met een USB-interface gezocht. Dit was jammer genoeg niet altijd mogelijk. Jaz drives zijn bijvoorbeeld enkel beschikbaar via een SCSI-2 interface. Hiervoor werden kabels gezocht waarmee je SCSI-2 apparatuur kan verbinden met een USB-poort.

We zorgden ervoor dat we verschillende reserveleesapparatuur hadden. Door hun leeftijd is de apparatuur niet enkel fragiel, maar kunnen ze ook minder precies zijn. Uit een studie van Dr. Gough Lui[2] blijkt dat het succes om disk image te maken van een diskette afhankelijk is van de drive die gebruikt wordt. Daarom wordt aangeraden om verschillende diskettestations aan te kopen.

Voor het capteren van diskettes volstonden het werkstation en de USB-leesapparatuur niet. Diskettes bestaan namelijk in verschillende formaten en varianten die incompatibel zijn.[3] Hiervoor werd een KryoFlux controller board gebruikt. Dat is een floppy disk controller die via software een diskettestation kan aansturen om een diskette te lezen en die verschillende formaten ondersteunt. Als leesapparatuur zochten we verschillende interne diskettestations voor verschillende disketteformaten die via een floppy data kabel verbonden kan worden met het KryoFlux board. Recentere diskettestations met een USB-kabel kunnen immers enkel de laatste generatie diskettes lezen omdat die op dat moment het populaire formaat was.

Tot slot werden write blockers aangekocht voor UBS- en IDE-apparatuur. Write blockers zijn hardware die vermijdt dat het besturingssysteem van een computer informatie wegschrijft op een externe drager. Dat kan per ongeluk gebeuren, maar sommige besturingssystemen hebben ook de gewoonte om extra (onzichtbare) bestanden op de drager te schrijven in functie van performantie.[4]

Via de aangekochte leesapparatuur, kabels, write blockers en andere hardware konden we opstellingen maken voor:

  • 3,5 inch diskettes;
  • 5,25 inch diskettes;
  • DDS tapes;
  • Jaz disks;
  • M.O. discs;
  • optische schijven (CD-ROM, CD-R(W), DVD-R(W), DVD+R(W));
  • SuperDisk;
  • Travan tapes;
  • USB sticks;
  • Zip Disks;
  • diverse soorten geheugenkaarten.

Deze opstellingen werden gedocumenteerd in de handleidingen (zie stap 5). Door een gebrek aan testmateriaal ontdekten we pas tijdens de pilootprojecten (zie stap 3) dat de opstelling voor Jaz disks niet voldoet. Deze zal verder ontwikkeld worden.

Werkprocessen opstellen voor het capteren van obsolete dragers

Bestanden worden op een drager opgeslagen in de vorm van bitstreams. Deze bitstreams worden op de drager geordend in de vorm van een containerformaat, zoals disk partities of bestandssystemen. Wanneer data van een oude drager bewaard wordt voor preserveringsdoeleinden, dan moet de kopie van die data zoveel mogelijk het origineel benaderen. Dat doet men door disk images te maken. Dit is een exacte kopie van de drager, waarbij zowel de bitstreams als het containerformaat (de disk partitie of het bestandssysteem) bewaard worden. Dat is belangrijk voor dragers die obsolete software of een obsoleet bestandssysteem bevatten en waarbij emulatie nodig zal zijn om de bestanden te kunnen openen. Er bestaan verschillende software om disk images te maken[5], waaronder software met een grafische interface zoals Disk Utility op macOS, FTK Imager op Windows en Guymager voor Linux, maar ook command line tools zoals cdrdao, readom, dd, dcfldd en ddrescue.

We beslisten om de BitCurator Environment te gebruiken voor het maken van disk images. BitCurator is een gespecialiseerde distributie van Ubuntu die voorzien is van digitale forensische tools om archivarissen en bibliothecarissen te helpen bij de omgang met externe (obsolete) dragers. We kozen voor die software omdat ze open source en gratis is[6], voorzien is van verschillende tools om disk images te creëren, analyseren, valideren en erover te rapporteren[7] en eenvoudig in gebruik is doordat de tools over een grafische interface beschikken. Bovendien wordt BitCurator beheerd door een consortium van erfgoedinstellingen, wordt ze gebruikt door een brede community en is er veel documentatie voorhanden in de vorm van handleidingen, presentaties en screencasts.[8]. Voor het creëren van disk images werd het werkproces van BitCurator gevolgd.[9]

Voor diskettes volstaat die workflow niet en werd KryoFlux gebruikt voor het maken van disk images. Net zoals er een grote variëteit aan disketteformaten bestaat (3,5 inch, 5,25 inch, 8 inch, 3 inch, 3,25 inch, 2,8 inch, etc.), bestaat er ook een grote variëteit aan formatteringen waarmee data op diskettes weggeschreven werd, waaronder het aantal beschrijfbare kanten, aantal tracks per kant, aantal bytes per sector, de snelheid waarmee data op een diskette geschreven werd, etc. . Dit noemt men de geometrie of het logische formaat van een diskette. De KryoFlux-software maakt het mogelijk om de rauwe magnetische informatie op te slaan in een bestand en hier vervolgens het juiste formaat mee te zoeken. KryoFlux is software die oorspronkelijk gebruikt werd door retrogamers, maar die meer en meer opgang vindt in de archiefwereld. In 2018 werd door een aantal archivarissen de Archivist's Guide to KryoFlux[10] ontwikkeld. Deze handleiding vormde de basis voor het werkproces voor diskettes.

Ook voor tapes stelden we vast dat de BitCurator worklow niet voldeed. Over het capteren van tapes is er weinig informatie te vinden. Voor dit werkproces baseerden we ons op de workflow die Johan Van Der Knijff voorstelde op IPRES2019.[11] We gebruikten hiervoor de open source software die hij ontwikkelde voor het capteren van tapes.[12]

Een probleem tijdens het opstellen van de werkprocessen was een gebrek aan testmateriaal. Van de Jaz disk hadden we maar één exemplaar waarmee we konden testen; van de Travan hadden we enkel lege tapes. Het was daarom niet mogelijk om de workflows goed te testen. We ontdekten daarom pas tijdens de pilootprojecten (stap 3) dat onze workflow voor tapes niet werkte. Deze zullen na het project verder verfijnd worden.

De werkprocessen werden gedocumenteerd in de verschillende handleidingen. Er werden tevens aparte handleidingen geschreven voor het gebruik van KryoFlux en Guymager (zie stap 5). Zodra de workflows voor DDS- en Travan-tapes op punt staan, worden er ook handleidingen voor geschreven.

Resultaten

Documentatie over de opstellingen en de werkprocessen werden opgenomen in de handleiding voor het capteren van de verschillende dragers (zie stap 5)

Stap 3: Pilootprojecten i.f.v. deelnemende archiefinstellingen

De deelnemende archiefinstellingen kregen een uitnodiging om één volledige dag het capteerstation te gebruiken. Hiervoor verzamelden ze max. 50 verschillende dragers om zoveel mogelijk workflows en handleidingen te testen. Ze werden hierbij begeleid door meemoo en kregen individueel een workshop om alle werkprocessen te doorlopen. De handleidingen en werkprocessen werden telkens verder verfijnd dankzij de ervaringen tijdens de pilootprojecten. We stelden bijvoorbeeld vast dat:

  • het werkproces voor optische schijven niet geschikt waren voor CD-R's die als audio cd geformatteerd waren;
  • het capteren van een optische schijf maar dan 2 uur kan duren als de schijf erg beschadigd is;
  • het uitlezen van tapeformaten vereist dat we moeten weten welke software gebruikt werd toen de informatie op de tape geschreven werd;
  • de Jaz drive wispelturig is en weigert om schijven uit te lezen.

Omdat AMVB door ziekte en personeelswissels geen overzicht heeft kunnen maken van de aanwezige dragers, namen zij niet deel aan deze stap. Zij gingen deze stap in maart-juni van 2020 inhalen, maar door de covid-19-maatregelen zal dit nog verder verschoven worden.

De werkprocessen werden positief geëvalueerd door de deelnemende archiefinstellingen.

Resultaten

Tabel 3: Gecapteerde dragers van de deelnemende archiefinstellingen (schatting)

Drager Aantal
3,5" microfloppy 54
3,5" HD microfloppy 24
5,25" minifloppy 13
CD-ROM 7
CD-R 8
CD-RW 5
CompactFlash Type 1 1
DDS 1
DVD-R 5
DVD+R 2
flippy disk 1
Iomega Zip 3
Jaz disk 1
M.O. disc 3
SuperDisk 3
Travan 1
USB flash drive 1

Stap 4: Dienstverlening ontwikkelen

Aan de hand van de registratie van de verschillende dragers binnen de collecties van de partnerinstellingen en de verschillende pilootprojecten met deze partners, moeten voldoende gegevens zijn verzameld aan de hand waarvan we de haalbaarheid van een dienstenmodel voor de gehele cultureel-erfgoedsector kunnen onderzoeken. De uitbouw van een dienstenmodel houdt het opstellen van een business plan in, waarbij de kosten in rekening worden gebracht voor het opzetten en onderhouden van het capturing lab, het onderhouden van de werkprocessen, het updaten van de documentatie en het ondersteunen van zijn/haar gebruikers. Tevens worden mogelijke inkomsten in rekening gebracht. We bekijken de mogelijkheden om de opgezette opstelling actief in gebruik te houden.

Businessplan uitwerken

Deze taak werd niet uitgevoerd. Het dienstenmodel voor het Digital Repair Cafe werd rechtstreeks ondergebracht in het businessplan voor een gedeelde infrastructuur van AIDA. Hierin worden middelen, tijd en medewerkers voorzien voor het afhalen van data van oude dragers:

  • beheer van een capture station
    • aankoop/verzamelen van hardware en software
    • beheer en configuratie van de hard- en software
    • inrichting werkruimte
  • begeleiding bij het gebruik van het capture station
    • opleiding gebruikers
    • handleidingen aanmaken
  • aanmaken van datasets

Tevens werd Digital Repair Cafe opgenomen in het meerjarenplan van meemoo[13] waardoor het beheer en de begeleiding van het capture station verzekerd blijft.

Resultaten

  • dienstenmodel: van zodra het businessplan voor een gedeelde infrastructuur definitief is wordt het gepubliceerd op de projectpagina van AIDA

Stap 5: Ontwikkeling didactisch materialen voor deelnemende archiefinstellingen

Meemoo documenteerde de opstellingen en werkprocessen in handleidingen die ter beschikking gesteld worden via GitHub en CEST. Tijdens de pilootprojecten kregen de deelnemende archiefinstellingen een individuele workshop over de opstellingen en workflows om de inhoud van verouderde dragers te capteren.

Resultaten

Stap 6: Communicatie naar de sector

De partners communiceerden via hun verschillende kanalen over het project naar de sector. Via GitHub Pages werd door meemoo een website opgezet waarin de deliverables en handleidingen opgenomen werden. Meemoo kreeg ook verschillende vragen over het afhalen van data van obsolete dragers en communiceerde dan telkens over Digital Repair Cafe. Verder werd het project voorgesteld op het Gents Archievenoverleg (GAO) en in een artikel in IP - Vakblad voor Informatieprofessionals. Het project zou ook voorgesteld worden op de ledendag van de VVBAD over e-archiving op 13 maart 2020, maar die presentatie werd uitgesteld vanwege de COVID-19-maatregelen.

Op 13 maart 2020 zou er een workshop Inhoud van oude dragers capteren voor de cultureel-erfgoedsector bij meemoo plaatsvinden[14]. Tijdens deze workshop zou ook het capteerstation voorgesteld worden. Door de COVID-19-maatregelen waren we echter genoodzaakt om de workshop uit te stellen naar een latere datum.

Resultaten

Referenties

  1. https://www.packed.be/nl/projecten/resurrection-lab
  2. https://goughlui.com/2013/04/21/project-kryoflux-part-3-recovery-in-practise/
  3. Voor meer info, zie de Wikipedia-artikels Floppy disk (https://en.wikipedia.org/wiki/Floppy_disk) en History of the floppy disk (https://en.wikipedia.org/wiki/History_of_the_floppy_disk)
  4. Voor meer informatie, zie Publicatie:Write_blockers
  5. A. DURYEE, ‘An Introduction to Optical Media Preservation’, ​The Code4Lib Journal​, 2014,http://journal.code4lib.org/articles/9581​; D. DIETRICH, J. KIM, M. McKEEHAN and A. RHONEMUS,‘How to party like it’s 1999: Emulation for Everyone’, ​The Code4Lib Journal, ​2016,http://journal.code4lib.org/articles/11386​; A. DAPPERT, A. JACKSON and A. KIMURA, ‘Developing aRobust Migration Workflow for Preserving and Curating Hand-Held Media’, ​OALib Journal, ​2013,https://arxiv.org/ftp/arxiv/papers/1309/1309.4932.pdf​; J. VAN DER KNIJFF, ​Preserving optical mediafrom the command line, ​2015, https://www.bitsgalore.org/2015/11/13/preserving-optical-media-from-the-command-line​; J. DURNOand J. TROFIMCHUK, ‘Digital forensics on a shoestring, a case study from the University of Victoria, The Code4Lib Journal​, 2015, ​http://journal.code4lib.org/articles/10279
  6. https://github.com/BitCurator/bitcurator-distro
  7. https://confluence.educopia.org/display/BC/Tools
  8. Zie https://bitcuratorconsortium.org/getting-started voor meer informatie
  9. Voor meer info, zie: https://confluence.educopia.org/display/BC/Creating+a+Disk+Image+Using+Guymager
  10. https://github.com/archivistsguidetokryoflux/archivists-guide-to-kryoflux
  11. https://www.bitsgalore.org/2019/09/09/recovering-90s-data-tapes-experiences-kb-web-archaeology
  12. https://github.com/KBNLresearch/tapeimgr
  13. https://viaa.be/nl/nieuw-item/2020/3/het-meemoo-meerjarenplan-samengevat
  14. https://www.packed.be/nl/nieuws/digital-repair-caf%C3%A9-workshop-inhoud-van-oude-dragers-capteren