Software:Browsertrix

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


browsertrix-crawler (Voorkeurstitel)
Beschrijving

Browsertrix-crawler is een crawler waarmee websites gecapteerd kunnen worden aan de hand van geautomatiseerde browsers. De geautomatiseerde browsers kunnen zowel complex gedrag uitvoeren (bv. autoscrollen, media afspelen, etc.) als meerdere websites en webpagina's gelijktijdig capteren.


Systeemvereisten

Python 3.6 of hoger, Docker, Docker Compose


Documentatie
Beheerder
Specificatie
Documentatie
Persistent ID


Installeren

Zorg dat Python 3.6 of hoger, Docker en Docker Compose geïnstalleerd zijn op je computer, voordat je Browertrix installeert.

  1. Haal de code van Browsertrix op via git clone https://github.com/webrecorder/browsertrix of door ze te downloaden
  2. Open de Browsertrix map en geef het commando python3 setup.py install in een terminalvenster om de Browsertrix command line interface te installeren.
  3. Voer vervolgens het commando ./install-browsers.sh. Hiermee worden extra Docker images geïnstalleerd die door Browsertrix gebruikt kunnen worden.
  4. Via het commando docker-compose build wordt de Browsertrix omgeving gebouwd.
  5. Geef tot slot het commando docker-compose up -d in om Browsertrix op te starten

Vanaf dat Browsertrix opgestart is, kan je in de terminal het browsertrix gebruiken. Via https://localhost:8000 kan je de Browsertrix webinterface consulteren. Dit kan je gebruiken om de voortgang van je crawls op te volgen. De UI is nog in ontwikkeling en kent nog enkele bugs.

Crawls creëren en uitvoeren

Crawls worden gemaakt via een configuratiebestand in het YAML-formaat. Raadpleeg hiervoor de Browsertrix Documentatie.

Vervolgens start je de crawl via het commando browsertrix crawl create configuratiebestand.yaml --watch. Vervang configuratiebestand.yaml door het pad of naam van je configuratiebestand. De optie --watch zorgt ervoor dat er een browservenster geopend wordt waarin je de geautomatiseerde crawl kan volgen. Je ziet de browser van pagina naar pagina gaan of doorheen de pagina scrollen en media openen.

De Browsertrix omgeving afsluiten kan met docker-compose stop. De omgeving terug opstarten kan met docker-compose up -d

Inlogprofiel maken

Om websites te archiveren die beveiligd zijn met een wachtwoord (zoals sociale media) kan je een profiel aanmaken. Op deze manier wordt ook vermeden dat deze privacygevoelige gegevens opgenomen worden in een WARC-bestand.

Om een profiel te maken:

  1. voer je browsertrix profile create in een terminalvenster.
  2. Vervolgens zal er een browser openen. Deze kan je gebruiken om te navigeren naar de websites die je wil capteren en in te loggen. Wanneer je overal ingelogd bent, sluit je dit venster
  3. Daarna ga je terug naar je terminalvenster en geef je een naam in voor dit profiel

Je bent dan klaar om dit profiel te gebruiken bij het archiveren van een website. Om een crawl te starten met een profiel, geef je het commando browsertrix crawl create configuratie.yaml --profile profiel waarbij je configuratie.yaml vervangt door het pad van je configuratiebestand en profiel door de naam van je profiel.

Lees meer over het profiel op de GitHub-pagina van Browsertrix.