Archivering van de erfgoedcelwebsites
Jump to navigation
Jump to search
Archiveren van erfgoedcelaalst.be
- gebruik van HTTrack
httrack http://www.erfgoedcelaalst.be -Y
- -Y of -mirrorallinks = mirror ALL links located in the first level pages
- volledige websites waarnaar de website van erfgoedcel aalst verwijst, lijkt ook gearchiveerd te worden. zo had httrack de intentie om de hele website van kunsten en erfgoed te archiveren (> 300 MB).
- operatie duurde uren en bleef dan vastzitten
- tweede poging met commando
httrack http://www.erfgoedcelaalst.be
:- pagina missie en visie: een link naar een actieplan werkt niet, maar werkt ook niet op website die online staat
- pagina werking, contact, medewerkers, nieuwsbrief, archief nieuwsbrief, projecten en erfgoedveld werden goed gearchiveerd
- interactie om van detailweergave naar lijstweergave over te gaan werkt niet
- sommige pagina's bevatten filmpjes met niet meer ondersteunde plugins (bv. projecten >> in voorbereiding >> herdenking W.O.I). de filmpjes die erachter zaten werden niet gearchiveerd
- fotoviewer werkt niet (afbeeldingen zijn wel gearchiveerd)
- html-code soms niet helemaal exact overgenomen (bv. publicaties >> tijdschriften >> erfgoedkrant nr. 1 2012
- externe links werden niet mee gearchiveerd (beperking van de scope). dit betekent dat deze links niet meer werken indien deze websites uit de lucht gehaald worden.
Archiveren van erfgoedbankmeetjesland.be
- gebruikte code:
httrack http://www.erfgoedbankmeetjesland.be --near --test
- archiveerde ook de beelden uit de collective access die achter de erfgoedbank zit (http://ca.erfgoedbankmeetjesland.be)
- niet alles kon gearchiveerd worden, wegens meer dan 99.999 links.
- ziet er op zich wel goed uit. vrij zoeken is niet meer mogelijk. alle links naar voorgeselecteerde zoekopdrachten worden bewaard.
- dynamische functionaliteiten die niet in URI's om te zetten zijn, kunnen niet gearchiveerd worden.
Archiveren van vensteropleuven.be
- gebruikte code:
httrack http://www.vensteropleuven.be --near --test
- dit is ook een soort erfgoedbank, waarin google maps geïntegreerd zit om te selecteren tussen de beelden
- alle functionaliteit is verloren
- beelden van de beeldbank werden niet bewaard.
- maakt gebruik van een yahoo api
- google maps api werd niet opgenomen.
- zeer weinig werd opgeslagen, slechts 9,5MB en 378 onderdelen
- lijkt de server (jsp-files) niet te kunnen aanspreken.
- gebruikte code:
httrack http://www.vensteropleuven.be -Y
- google maps api werd opgenomen. >> nu ben ik de hele website van google precies aan het downloaden.
Archiveren van adornesachterna.be
- lukt niet via httrack --> kan filmpjes niet afspelen
- gedaan via screencast om de functionaliteiten te tonen (kan zelf niet meer gedaan worden).
Archiveren van packed.be
- Wget
- commando
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domain packed.be --warc-file=20161103_packed www.packed.be
- syntax: commando parameters doel
--recursive
: download de hele website--no-clobber
: overschrijf geen existing files (in geval de download zou stilvallen en heropgestart moet worden)--page-requisites
: geef alle elementen waaruit de pagina opgebouwd is (html-file, css-file, scripts, etc.)--html-extension
: zet alle bestanden om naar html--convert-links
: zet absolute links om naar relatieve links zodat ze offline werken--restrict-file-names=windows
: zorg dat de bestandsnamen ook in windows gelezen kunnen worden--domain packed.be
: blijf binnen het domein packed.be. je kan ook de parameterdomains
gebruiken om meerdere domeinen toe te kennen (comma separated list).--warc-file=
: bestandsnaam voor het WARC-bestand
Gebruik van WAIL
- combinatie van Heritrix en Open Wayback
- slaagt op in WARC-formaat
- vaststelling: slaagt niet zoals HTTrack alle onderliggende linken binnen een domein op. veel wordt gemist.
- voordeel: alles zit in 1 bestand met metadata, ipv heel veel html-, css-, js- etc. bestanden, afbeeldingen, documenten...
Tools
- Open Wayback: kan WARC-files openen en wordt veel gebruikt in de cultureel-erfgoedsector en door the Internet Archive
- WebArchivePlayer: kan ARC- en WARC-files openen
- Webrecorder: maakt WARC-file van website wanneer je doorheen de website surft. Capteert de pagina's die je bezoekt.
- GNU Wget: kan via command line website afhalen in het WARC-formaat.