Publicatie:Handleiding voor het raadplegen van gearchiveerde websites en sociale media (HTML, WARC, WACZ)

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting


Referentie
Titel Handleiding voor het raadplegen van gearchiveerde websites en sociale media (HTML

WARC WACZ) (Voorkeurstitel)

Locatie
Uitgever
Jaar van uitgave 2023
Rechten CC-BY
Persistent ID


Auteurs

Fien Messens m.m.v. Katrien Weyns

HTML-Zip bestand openen

Een webbron waarvan enkel de basisbestanden in html, pdf, jpg, doc, gif, enzovoort bewaard zijn, al dan niet in mappen, kan je bekijken vanuit de index-file. Deze bestanden zullen veelal gecomprimeerd als .zip, .7z, .tar, enzovoort ter beschikking gesteld worden en moeten uitgepakt worden om ze te raadplegen. De werkwijze is voor alle compressieformaten gelijkaardig.

  • Download het bestand met extensie .zip, .7z, .tar, of ander compressieformaat. Zoek vervolgens het bestand op je computer. Wellicht werd dit bewaard onder een map "Downloads". Klik op het zip-bestand en klik daarna op je rechtermuisknop om “extract all” te kiezen.
Zoek het compressiebestand op je computer en klik met je rechtermuisknop op de bestandsnaam.
  • Kies een locatie waar je de uitgepakte bestanden gaat bewaren. Klik daarna op “extract”. Je kan er eventueel voor kiezen om deze map te openen na het extraheren, vink dan "Show extracted files when complete" aan.
Kies in welke map je de uitgepakte bestanden wil bewaren door op "browse" te klikken.
  • Je bestanden worden “uitgepakt”.
Er verschijnt een balk met de vooruitgang bij het uitpakken.
  • Open de geëxtraheerde map en klik op het index.html - bestand (hier onderaan de in lijst). Een webpagina die lokaal opgeslagen is, opent zich in je internetbrowser. Dit index-bestand leidt meestal naar de homepage van waaruit je kan vertrekken en doorklikken.
Klik op het bestand "index" in de uitgepakte map.
  • Bekijk de gearchiveerde website. Bovenaan in de adresbalk van je internetbrowser zie je waar het bestand op je computer bewaard is. Het is mogelijk dat je bij het doorklikken geleid wordt naar een nog actieve webpagina die online staat. In dat geval verschijnt er in de adresbalk “http” vooraan en bekijk je niet meer de gearchiveerde website.
Voorbeeld van een gearchiveerde website met bovenaan in de adresbalk de bewaarlocatie van de website.

WARC-bestand openen

ReplayWeb.page is een zeer eenvoudige tool waarmee webarchieven bekeken kunnen worden in de browser zonder dat je software moet installeren. Je kan er WARC-bestanden mee openen die lokaal op je computer, Google Drive, Amazon S3 of een webserver (via HTTP of HTTPS) staan. Je kan ook WARC-bestanden die geladen zijn in ReplayWeb.page delen met anderen, tenzij het om een WARC-bestand gaat dat lokaal op je computer staat. Lees hierover meer in de documentatie over de tool.

  • Download het bestand met extensie .warc of .warc.gz. Warc.gz is een gecomprimeerd WARC-bestand.
  • Ga in je internetbrowser naar https://replayWeb.page en klik op “choose file”.
Klik op "choose file" in het scherm.
  • Kies je WARC-bestand dat je zou willen zien.
Kies het opgeslagen WARC-bestand.
  • Klik op “load” om je WARC-bestand te laden.
Klik op "Laod".
  • Plaats de url van de gearchiveerde website in de zoekbalk. Zo vind je direct de pagina’s die je zoekt. Klik op een geel gearceerde pagina in de lijst eronder. Filter eventueel door op exact te klikken.
Tik de url van de gearchiveerde website in de zoekbalk.
  • Bekijk de gearchiveerde website.
Voorbeeld van een gearchiveerde website geraadpleegd via ReplayWeb.page.
  • Afhankelijk van de gebruikte captatietool kan het ook mogelijk zijn dat je direct na het laden van het bestand een lijst van verschillende pagina’s krijgt. Je hoeft de url niet meer in de zoekbalk in te geven. Er bestaat hier de mogelijkheid om full text te gaan zoeken.
Full text zoekbox in replayWeb.page. Geef hier een zoekterm in.
Full text zoekbox in replayWeb.page. Geef hier een zoekterm in.

WACZ-bestand openen

Een WACZ-bestand bestaat uit een verzameling van gearchiveerde webbronnen (WARC-bestanden). Het voordeel van dit bestandsformaat is dat je meerdere webbronnen tegelijk full text kan doorzoeken.

  • Ga in je internetbrowser naar https://replayWeb.page en klik op “choose file”.
    Screenshot WARC 1.png
  • Klik op een .wacz bestand dat je wilt openen.
    Screenshot WACZ 2.png
  • Klik op “load”.
    Klik op "Load".
  • Je kan ervoor kiezen om op een post in de lijst te klikken of full text te zoeken in de zoekbalk.
    Gebruik de zoekbalk bovenaan om full text te zoeken. Of klik op een url in de lijst.
  • Hier bekijk je de post en kan je doorklikken naar andere posts. Ook kan je in de zoekbalk naar specifieke woorden zoeken.
    Voorbeeld van een geopend socialemediabericht. In de linkerbalk kan je full text zoeken.