Archivering van de erfgoedcelwebsites

Archiveren van erfgoedcelaalst.be

gebruik van HTTrack
httrack https://erfgoedceldenderland.be/-Y
-Y of -mirrorallinks = mirror ALL links located in the first level pages
volledige websites waarnaar de website van erfgoedcel aalst verwijst, lijkt ook gearchiveerd te worden. zo had httrack de intentie om de hele website van kunsten en erfgoed te archiveren (> 300 MB).
operatie duurde uren en bleef dan vastzitten
tweede poging met commando httrack https://erfgoedceldenderland.be/:
- pagina missie en visie: een link naar een actieplan werkt niet, maar werkt ook niet op website die online staat
- pagina werking, contact, medewerkers, nieuwsbrief, archief nieuwsbrief, projecten en erfgoedveld werden goed gearchiveerd
- interactie om van detailweergave naar lijstweergave over te gaan werkt niet
- sommige pagina's bevatten filmpjes met niet meer ondersteunde plugins (bv. projecten >> in voorbereiding >> herdenking W.O.I). de filmpjes die erachter zaten werden niet gearchiveerd
- fotoviewer werkt niet (afbeeldingen zijn wel gearchiveerd)
- html-code soms niet helemaal exact overgenomen (bv. publicaties >> tijdschriften >> erfgoedkrant nr. 1 2012
- externe links werden niet mee gearchiveerd (beperking van de scope). dit betekent dat deze links niet meer werken indien deze websites uit de lucht gehaald worden.

gebruikte code: httrack http://www.erfgoedbankmeetjesland.be --near --test
archiveerde ook de beelden uit de collective access die achter de erfgoedbank zit (http://ca.erfgoedbankmeetjesland.be)
niet alles kon gearchiveerd worden, wegens meer dan 99.999 links.
ziet er op zich wel goed uit. vrij zoeken is niet meer mogelijk. alle links naar voorgeselecteerde zoekopdrachten worden bewaard.
dynamische functionaliteiten die niet in URI's om te zetten zijn, kunnen niet gearchiveerd worden.

gebruikte code: httrack http://www.vensteropleuven.be --near --test
- dit is ook een soort erfgoedbank, waarin google maps geïntegreerd zit om te selecteren tussen de beelden
- alle functionaliteit is verloren
- beelden van de beeldbank werden niet bewaard.
- maakt gebruik van een yahoo api
- google maps api werd niet opgenomen.
- zeer weinig werd opgeslagen, slechts 9,5MB en 378 onderdelen
- lijkt de server (jsp-files) niet te kunnen aanspreken.
gebruikte code: httrack http://www.vensteropleuven.be -Y
- google maps api werd opgenomen. >> nu ben ik de hele website van google precies aan het downloaden.

lukt niet via httrack --> kan filmpjes niet afspelen
gedaan via screencast om de functionaliteiten te tonen (kan zelf niet meer gedaan worden).

Wget
commando wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domain packed.be --warc-file=20161103_packed www.packed.be
syntax: commando parameters doel
--recursive: download de hele website
--no-clobber: overschrijf geen existing files (in geval de download zou stilvallen en heropgestart moet worden)
--page-requisites: geef alle elementen waaruit de pagina opgebouwd is (html-file, css-file, scripts, etc.)
--html-extension: zet alle bestanden om naar html
--convert-links: zet absolute links om naar relatieve links zodat ze offline werken
--restrict-file-names=windows: zorg dat de bestandsnamen ook in windows gelezen kunnen worden
--domain packed.be: blijf binnen het domein packed.be. je kan ook de parameter domains gebruiken om meerdere domeinen toe te kennen (comma separated list).
--warc-file=: bestandsnaam voor het WARC-bestand

combinatie van Heritrix en Open Wayback
slaagt op in WARC-formaat
vaststelling: slaagt niet zoals HTTrack alle onderliggende linken binnen een domein op. veel wordt gemist.
voordeel: alles zit in 1 bestand met metadata, ipv heel veel html-, css-, js- etc. bestanden, afbeeldingen, documenten...

Open Wayback: kan WARC-files openen en wordt veel gebruikt in de cultureel-erfgoedsector en door the Internet Archive
WebArchivePlayer: kan ARC- en WARC-files openen
Webrecorder: maakt WARC-file van website wanneer je doorheen de website surft. Capteert de pagina's die je bezoekt.
GNU Wget: kan via command line website afhalen in het WARC-formaat.