Publicatie:Een Twitter-account archiveren met pywb

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om socialemediaplatformen te archiveren. Deze handleiding beschrijft de tool pywb voor het archiveren van Twitter.


Referentie
Titel Twitter archiveren met pywb (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2021
Rechten CC-BY-SA
Persistent ID


Pywb is een webarchiveringstoolkit voor het afspelen van webarchieven. Het werd eind 2020 door IIPC (International Internet Preservation Coalition) verkozen als de beste software om webarchieven af te spelen.[1] Met pywb kan je rechtstreeks in de browser webarchieven afspelen en creëren. Het is een goede tool om dynamische websites, die je kan bekijken zonder in te loggen, te archiveren. Twitter is een voorbeeld van zo’n dynamische website waarbij je publieke accounts kan bekijken zonder dat je over een account moet beschikken.

Vereisten

  • Python
  • geen schrik van de command line

Voordelen

  • draait op Windows, macOs en Linux
  • archiveert sociale media in het standaardformaat WARC
  • archivering verloopt rechtstreeks in de browser
  • zelfde software voor het maken en afspelen van webarchieven
  • uitgebreide documentatie

Nadelen

  • zowel de installatie van de software als de creatie van crawls verlopen via de command line
  • niet geautomatiseerd
  • kan geen sociale media capteren waarvoor je je moet inloggen
  • creëert weinig metadata, enkel URL en tijdstempel van captatie.

Workflow

Stap 1: installeer de software

Pywb installeer je met pip, de Python package manager. Zorg daarom dat Python reeds op je computer geïnstalleerd is.

  • open een terminalvenster
  • gebruik het commando pip install pywb om pywb te installeren

Pywb is nu geïnstalleerd.

Stap 2: maak een collectie

Net zoals Browsertrix en Webrecorder werkt pywb met collecties.

  • maak een map voor je pywb webarchieven met een naam naar keuze. Doorheen deze handleidingen zullen we ze pywb-map noemen.
  • download dit configuratiebestand en plaats het in de pywb-map. Raadpleeg de pywb-documentatie als je pywb nog meer wil aanpassen.

Pywb twitter 1.png

  • open een terminalvenster en navigeer naar de pywb-map met het commando cd pad/naar/pywb-map  Verander pad/naar/pywb-map in het juiste pad voor de pywb-map. Als de map pywb-map op je Desktop staat, dan is het commando:
    • voor Windows: cd c:\Users\(username)\Desktop\pywb-map (vervang (username) door je gebruikersnaam)
    • voor macOS: cd ~/Desktop/pywb-map

Pywb twitter 2.png

  • geef een naam naar keuze aan je collectie. In deze handleidingen noemen we de collectie mijn-archief. Gebruik hiervoor het commando wb-manager init mijn-archief.

Pywb twitter 3.png

  • Hou het terminalvenster open en ga naar de volgende stap

Stap 3: start pywb in opnamemodus

Vervolgens moet pywb opgestart worden in opnamemodus en kunnen we starten met browsen doorheen het socialemediaplatform.

  • Keer terug naar het terminalvenster dat nog open staat van de vorige stap
  • Start pywb op met het commando wayback --record --live --enable-auto-fetch. Dit commando maakt het mogelijk om live websites op te nemen. --enable-auto-fetch zorgt ervoor dat pywb automatisch extra content downloadt van responsieve websites, zoals de individuele posts op de Twitter timeline. Ingebedde media van tweets worden automatisch gedownload, maar als je in het webarchief afbeeldingen wil bekijken in volledige grootte door op een afbeelding in een tweet te klikken, moet je ze bij het archiveren wel nog zelf openen; deze worden niet automatisch gedownload omdat Twitter ze een andere domeinnaam geeft.

Pywb twitter 4.png

  • Als alles goed verlopen is, zie je in de terminal de tekst [INFO]: Starting Gevent Server on 8080 verschijnen
  • Laat het terminalvenster open staan

Stap 4: navigeer doorheen het Twitter account

Pywb twitter 5.png

  • Scroll doorheen de website (en open eventueel alle afbeeldingen) tot je alles bekeken hebt dat je wil archiveren. Tijdens het interageren met de webpagina zie je in de terminal tekst verschijnen. Dit wijst erop dat pywb de webpagina aan het archiveren is.

Pywb twitter 6.png

  • Als je klaar bent met archiveren, kan je de browser of het tabblad sluiten. Ook het terminalvenster kan je sluiten; of je kan de opdracht beëindigen door gelijktijdig ctrl en c in te drukken.
  • Bekijk je pywb-map. In de map collections/mijn-archief/archive zou je nu een warc.gz-bestand moeten zien.

Pywb twitter 7.png

Resultaat

Je hebt nu een webarchief in het WARC-formaat dat je kan bekijken.

  • Open weer een terminalvenster en navigeer terug naar de pywb-map: cd pad/naar/pywb-map
  • Start pywb op via het commando wayback -a. De -a optie zorgt ervoor dat er een index gecreëerd wordt van het WARC-bestanden in de collectie. Pywb gebruikt deze index om snel doorheen het WARC-bestand te kunnen zoeken.

Pywb twitter 8.png

  • Er verschijnen een aantal berichten in de terminal. Als het bericht [INFO]: ...Done ziet, dan is je webarchief klaar om af te spelen.
  • Ga naar http://localhost:8080/mijn-archief (vervang mijn-archief door de naam die je aan de collectie gegeven hebt).
  • Je zal een zoekvenster te zien krijgen. Typ de URL in die je gearchiveerd hebt.

Pywb twitter 9.png

  • Klik vervolgens op Search. Je zal een lijst zien met het aantal crawls dat je gedaan hebt voor die URL en de datum van die crawls. Normaal zou je één capture moeten zien.

Pywb twitter 10.png

  • Klik op de crawl en scroll doorheen de gearchiveerde webpagina.

Pywb twitter 11.png

Pywb twitter 12.png

Referenties