Software:Browsertrix
Browsertrix-crawler is een crawler waarmee websites gecapteerd kunnen worden aan de hand van geautomatiseerde browsers. De geautomatiseerde browsers kunnen zowel complex gedrag uitvoeren (bv. autoscrollen, media afspelen, etc.) als meerdere websites en webpagina's gelijktijdig capteren.
- Python 3.6 of hoger * Docker * Docker Compose
Beheerder | |
Specificatie | |
Documentatie | |
Persistent ID |
Installeren
Zorg dat Python 3.6 of hoger, Docker en Docker Compose geïnstalleerd zijn op je computer, voordat je Browertrix installeert.
- Haal de code van Browsertrix op via
git clone https://github.com/webrecorder/browsertrix
of door ze te downloaden - Open de Browsertrix map en geef het commando
python3 setup.py install
in een terminalvenster om de Browsertrix command line interface te installeren. - Voer vervolgens het commando
./install-browsers.sh
. Hiermee worden extra Docker images geïnstalleerd die door Browsertrix gebruikt kunnen worden. - Via het commando
docker-compose build
wordt de Browsertrix omgeving gebouwd. - Geef tot slot het commando
docker-compose up -d
in om Browsertrix op te starten
Vanaf dat Browsertrix opgestart is, kan je in de terminal het browsertrix
gebruiken. Via https://localhost:8000 kan je de Browsertrix webinterface consulteren. Dit kan je gebruiken om de voortgang van je crawls op te volgen. De UI is nog in ontwikkeling en kent nog enkele bugs.
Crawls creëren en uitvoeren
Crawls worden gemaakt via een configuratiebestand in het YAML-formaat. Raadpleeg hiervoor de Browsertrix Documentatie.
Vervolgens start je de crawl via het commando browsertrix crawl create configuratiebestand.yaml --watch
. Vervang configuratiebestand.yaml
door het pad of naam van je configuratiebestand. De optie --watch
zorgt ervoor dat er een browservenster geopend wordt waarin je de geautomatiseerde crawl kan volgen. Je ziet de browser van pagina naar pagina gaan of doorheen de pagina scrollen en media openen.
De Browsertrix omgeving afsluiten kan met docker-compose stop
. De omgeving terug opstarten kan met docker-compose up -d
Inlogprofiel maken
Om websites te archiveren die beveiligd zijn met een wachtwoord (zoals sociale media) kan je een profiel aanmaken. Op deze manier wordt ook vermeden dat deze privacygevoelige gegevens opgenomen worden in een WARC-bestand.
Om een profiel te maken:
- voer je
browsertrix profile create
in een terminalvenster. - Vervolgens zal er een browser openen. Deze kan je gebruiken om te navigeren naar de websites die je wil capteren en in te loggen. Wanneer je overal ingelogd bent, sluit je dit venster
- Daarna ga je terug naar je terminalvenster en geef je een naam in voor dit profiel
Je bent dan klaar om dit profiel te gebruiken bij het archiveren van een website. Om een crawl te starten met een profiel, geef je het commando browsertrix crawl create configuratie.yaml --profile profiel
waarbij je configuratie.yaml
vervangt door het pad van je configuratiebestand en profiel
door de naam van je profiel.
Lees meer over het profiel op de GitHub-pagina van Browsertrix.