Publicatie:Hoe archiveer ik websites?

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


Samenvatting

De meeste organisaties hebben reeds een aantal websites versleten. Bij de overgang van een oude naar een nieuwe website staan organisaties vaak voor de vraag hoe ze de oude website kunnen archiveren. Vaak bevat zo’n oude website interessante gegevens die niet meer relevant zijn voor de nieuwe website, maar wel een historische waarde hebben voor de organisatie. Wat is dan de eenvoudigste manier om die informatie te archiveren?


Referentie
Titel Hoe achiveer ik websites? (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2015
Rechten CC-BY-SA
Persistent ID


De webinterface van HTTrack.

Archiveren van websites

De meeste organisaties hebben reeds een aantal websites versleten. Bij de overgang van een oude naar een nieuwe website staan organisaties vaak voor de vraag hoe ze de oude website kunnen archiveren. Vaak bevat zo’n oude website interessante gegevens die niet meer relevant zijn voor de nieuwe website, maar wel een historische waarde hebben voor de organisatie. Wat is dan de eenvoudigste manier om die informatie te archiveren?

Nog niet zo heel lang geleden werden websites gebouwd enkel met gebruik van statische HTML-bestanden: eenvoudige tekstbestanden met een opmaak waarmee een webbrowser de inhoud kan omvormen tot een webpagina. Om deze websites te archiveren volstond het simpelweg om het mapje met HTML-bestanden van de website op de server, naar je eigen computer te kopiëren. Maar statische HTML-pagina’s worden, eens opgeladen op de server, zelden of nooit nog gewijzigd omdat je telkens de HTML-code moet aanpassen. Recente websites maken daarom gebruik van een Content Management System (CMS): een databank waarin de website-informatie wordt beheerd en die webpagina’s ad hoc samenstelt op het ogenblik dat ze geopend worden. Hierdoor wordt de website ‘dynamisch’, maar ook heel vluchtig en moeilijk te archiveren. De eenvoudigste manier om zo’n dynamische website te archiveren is om hem op regelmatige tijdstippen terug ‘statisch’ te maken[1]. Dit kan je doen met behulp van een webcrawler. Een webcrawler is een stukje software dat een website bezoekt en alle publiek toegankelijke data (html-pagina’s, afbeeldingen, documenten, ...) downloadt. Op die manier wordt een statische kopie van de website gemaakt.

Er zijn verschillende tools beschikbaar om websites ‘statisch’ te archiveren. De ene vraagt al wat meer technische kennis dan de andere. Een tool die eenvoudig is in installatie en gebruik is HTTrack[2]. HTTrack beschikt over een webcrawler die alle toegankelijke informatie op je website kopieert naar een gekozen map op je computer. Bij het omzetten van een dynamische naar een statische website wordt meestal alle inhoudelijke informatie overgezet. Geavanceerde functies zoals het doorzoeken van je website via het zoekveld op de webpagina’s zullen echter niet meer werken, aangezien het CMS voor deze functionaliteit instond. Om de website veilig op te slaan, verpak je de HTML-pagina’s vervolgens in een zip- of bag-bestand[3], voor je hem opneemt in je digitale archief.

Mocht je er niet in slagen zelf je website te archiveren, kan je vertrouwen op een externe dienst om je website te laten crawlen. De grootste, externe websitearchiveringsdienst is de Wayback Machine van The Internet Archive[4], die op deze manier ondertussen al meer dan 400 miljard pagina’s gearchiveerd heeft. De Wayback Machine archiveert de meeste websites zonder dit te melden. Op zekere tijdstippen wordt door de dienst een momentopname van je website genomen. Neem dus zeker al eens een kijkje om uit te vinden welke momentopnames van jouw website al gearchiveerd werden. Het grootste voordeel van deze aanpak is dat je zelf geen tijd of kennis nodig hebt. Een nadeel is dat je voor de keuze van de momentopname afhankelijk bent van een externe dienst.

Dit artikel werd geschreven door Joris Janssens (PACKED-medewerker) en verscheen in META 2015/2 in de reeks Uitgepakt.

  1. Er bestaan ook complexere manieren die trachten ook de functionaliteit en veranderlijkheid van de website te bewaren door het CMS-systeem zelf te archiveren.
  2. Zie http://www.httrack.com/, beschikbaar voor Windows, Mac en Linux. Een andere veelgebruikte webcrawler, die ontwikkeld werd door The Internet Archive en een aantal nationale bibliotheken, is Heretrix.
  3. Zie http://en.wikipedia.org/wiki/BagIt
  4. Zie https://archive.org/web/