Archivering van de erfgoedcelwebsites

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken

Archiveren van erfgoedcelaalst.be

  • gebruik van HTTrack
  • httrack http://www.erfgoedcelaalst.be -Y
  • -Y of -mirrorallinks = mirror ALL links located in the first level pages
  • volledige websites waarnaar de website van erfgoedcel aalst verwijst, lijkt ook gearchiveerd te worden. zo had httrack de intentie om de hele website van kunsten en erfgoed te archiveren (> 300 MB).
  • operatie duurde uren en bleef dan vastzitten
  • tweede poging met commando httrack http://www.erfgoedcelaalst.be:
    • pagina missie en visie: een link naar een actieplan werkt niet, maar werkt ook niet op website die online staat
    • pagina werking, contact, medewerkers, nieuwsbrief, archief nieuwsbrief, projecten en erfgoedveld werden goed gearchiveerd
    • interactie om van detailweergave naar lijstweergave over te gaan werkt niet
    • sommige pagina's bevatten filmpjes met niet meer ondersteunde plugins (bv. projecten >> in voorbereiding >> herdenking W.O.I). de filmpjes die erachter zaten werden niet gearchiveerd
    • fotoviewer werkt niet (afbeeldingen zijn wel gearchiveerd)
    • html-code soms niet helemaal exact overgenomen (bv. publicaties >> tijdschriften >> erfgoedkrant nr. 1 2012
    • externe links werden niet mee gearchiveerd (beperking van de scope). dit betekent dat deze links niet meer werken indien deze websites uit de lucht gehaald worden.

Archiveren van erfgoedbankmeetjesland.be

  • gebruikte code: httrack http://www.erfgoedbankmeetjesland.be --near --test
  • archiveerde ook de beelden uit de collective access die achter de erfgoedbank zit (http://ca.erfgoedbankmeetjesland.be)
  • niet alles kon gearchiveerd worden, wegens meer dan 99.999 links.
  • ziet er op zich wel goed uit. vrij zoeken is niet meer mogelijk. alle links naar voorgeselecteerde zoekopdrachten worden bewaard.
  • dynamische functionaliteiten die niet in URI's om te zetten zijn, kunnen niet gearchiveerd worden.

Archiveren van vensteropleuven.be

  • gebruikte code: httrack http://www.vensteropleuven.be --near --test
    • dit is ook een soort erfgoedbank, waarin google maps geïntegreerd zit om te selecteren tussen de beelden
    • alle functionaliteit is verloren
    • beelden van de beeldbank werden niet bewaard.
    • maakt gebruik van een yahoo api
    • google maps api werd niet opgenomen.
    • zeer weinig werd opgeslagen, slechts 9,5MB en 378 onderdelen
    • lijkt de server (jsp-files) niet te kunnen aanspreken.
  • gebruikte code: httrack http://www.vensteropleuven.be -Y
    • google maps api werd opgenomen. >> nu ben ik de hele website van google precies aan het downloaden.

Archiveren van adornesachterna.be

  • lukt niet via httrack --> kan filmpjes niet afspelen
  • gedaan via screencast om de functionaliteiten te tonen (kan zelf niet meer gedaan worden).

Archiveren van packed.be

  • Wget
  • commando wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domain packed.be --warc-file=20161103_packed www.packed.be
  • syntax: commando parameters doel
  • --recursive: download de hele website
  • --no-clobber: overschrijf geen existing files (in geval de download zou stilvallen en heropgestart moet worden)
  • --page-requisites: geef alle elementen waaruit de pagina opgebouwd is (html-file, css-file, scripts, etc.)
  • --html-extension: zet alle bestanden om naar html
  • --convert-links: zet absolute links om naar relatieve links zodat ze offline werken
  • --restrict-file-names=windows: zorg dat de bestandsnamen ook in windows gelezen kunnen worden
  • --domain packed.be: blijf binnen het domein packed.be. je kan ook de parameter domains gebruiken om meerdere domeinen toe te kennen (comma separated list).
  • --warc-file=: bestandsnaam voor het WARC-bestand

Gebruik van WAIL

  • combinatie van Heritrix en Open Wayback
  • slaagt op in WARC-formaat
  • vaststelling: slaagt niet zoals HTTrack alle onderliggende linken binnen een domein op. veel wordt gemist.
  • voordeel: alles zit in 1 bestand met metadata, ipv heel veel html-, css-, js- etc. bestanden, afbeeldingen, documenten...

Tools

  • Open Wayback: kan WARC-files openen en wordt veel gebruikt in de cultureel-erfgoedsector en door the Internet Archive
  • WebArchivePlayer: kan ARC- en WARC-files openen
  • Webrecorder: maakt WARC-file van website wanneer je doorheen de website surft. Capteert de pagina's die je bezoekt.
  • GNU Wget: kan via command line website afhalen in het WARC-formaat.