Publicatie:WARC

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

Websites en sociale media zijn niet meer weg te denken uit onze samenleving. Gebeurtenissen worden bediscussieerd op Twitter, groepen die ontstaan rond bepaalde thema’s communiceren via digitale kanalen zoals Facebook. Verschillende erfgoedorganisaties zijn dan ook gestart met het archiveren van websites en sociale media om hiervan een spoor te kunnen bewaren. Sinds 2009 is WARC het standaardformaat voor de bewaring van webarchieven.


Referentie
Titel WARC (Voorkeurstitel)
Locatie META nummer 2022/7
Uitgever
Jaar van uitgave 2022
Rechten CC-BY-SA
Persistent ID


Auteur

Nastasia Vanderperren (meemoo, Vlaams instituut voor het archief)

Wat is WARC?

Websites, waaronder ook socialemediaplatformen, bestaan uit verschillende webpagina’s met onder meer tekst, afbeeldingen en video’s die opgeslagen zijn op een server. Crawlers worden gebruikt om die webinhoud te capteren en de functionaliteit ervan te bewaren (zie de Uitgepakt-rubriek in META 2017/4). De crawlers communiceren met de webserver en downloaden alle bestanden waaruit de website bestaat. De gedownloade bestanden worden vervolgens door de crawler opgeslagen en samen- gevoegd in één WARC-bestand. WARC, kort voor Web ARChive, kun je herkennen aan de extensie .warc, al zie je vaker zijn gecomprimeerde vorm .warc.gz. Het is een open formaat dat beheerd wordt door het International Internet Preservation Consortium (IPPC) en een ISO-standaard.

De anatomie van een WARC-bestand

De gearchiveerde Facebookpagina van meemoo (facebook.com/meemoo.be) op 22 april 2022. Links een deel van het WARC-bestand geopend in een teksteditor. Rechts diezelfde WARC geopend in een WARC-viewer.

WARC werd ontwikkeld als opvolger van ARC, een bestands- formaat dat door het Internet Archive gebruikt werd om webarchieven op te slaan. WARC is gelijkaardig, maar heeft enkele uitbreidingen. Zo kan het naast de webinhoud ook contextuele informatie opslaan. Een WARC-bestand bevat alle verzoeken (requests) aan de server om de inhoud van een webpagina te verkrijgen, de antwoorden (responses) van de server op die ver- zoeken en de volledige inhoud van de gevraagde webpagina’s, maar ook metadata over de creatie en de inhoud van het bestand. Het bevat dus alle gegevens die nodig zijn om de overdracht van informatie van een webserver naar een browser tot stand te bren- gen en om het webarchief te identificeren.

Als je een WARC-bestand met een teksteditor opent, kun je de inhoud ervan in tekstvorm bekijken. Requests en responses zijn erin geordend als een lijst van records, aangevuld met metadata zoals het tijdstip van captatie, de checksum en de uniform resource identifier (URI). Om dubbele informatie te vermijden, is er een speciaal type record: het revisit-record. Dat verwijst naar een pagina die reeds eerder gecapteerd werd. In plaats van ze een tweede keer te downloaden, wordt er verwezen naar de eerste download van de pagina. Dit record bestaat enkel uit metadata, met een verwijzing naar het vorige response-record. Op die manier wordt redundante informatie vermeden, maar wordt toch de correcte metadata bewaard.

Waarom WARC gebruiken?

In de Uitgepakt-rubriek van META 2015/2 werd voorgesteld om met de software HTTrack websites te archiveren. Ook HTTrack communiceert met een server en downloadt alle bestanden die op de ser- ver staan. Alleen bewaart het ieder element als een apart bestand en wordt er geen contextuele informatie bewaard. Die informatie wordt wel in een WARC-bestand opgenomen. WARC biedt een gestandaardiseerde manier aan om webarchieven te bewaren en wordt daarom door verschillende internationale erfgoedinstellingen gebruikt als preserveringsformaat, ook door KBR om het Belgische web te archiveren.

Een nadeel aan WARC is dat je het niet kunt openen met een browser, zoals dat wel kan bij HTML-pagina’s. Je hebt een WARC-viewer zoals replayweb.page nodig om het bestand te kunnen bekijken.