Software:Brozzler

brozzler (Voorkeurstitel)

Beschrijving

Brozzler is een gedistribueerde webcrawler die gebruik maakt van een echte browser (Chrome of Chromium) om webpagin's op te halen. Het is daarom in staat om dynamische websites te capteren. Het bevat scripts met menselijk gedrag om interacties te capteren (bv. naar beneden scrolling, media afspelen, etc.). Crawls worden opgestart via de command line; de voortgang kan gevolgd worden via een webinterface. Webarchieven worden opgeslagen in het WARC-formaat.

Systeemvereisten

Python 3.5 of hoger
RethinkDB
Chromium of Google Chrome versie 64 en hoger

Documentatie

Beheerder	Internet Archive
Specificatie	GitHub
Documentatie	brozzler README
Persistent ID

Trefwoorden

Installatie

Met pip3 install brozzler[easy] installeer je de crawler

Met pip3 install brozzler[dasboard] installeer je het dashboard om je crawls te volgen en te bekijken.

Getting started

Om brozzler op te starten moet je commando's ingeven in de command line interface.

De eenvoudigste manier om een website te capteren:

voeg een te archiveren website toe via brozzler-new-site http://example.com/ (vervang http://example.com door de website die je wil capteren)
start de crawl via brozzler-easy

Vervolgens zal een browser openen en kan je geautomatiseerd gedrag zien in de browser zoals navigeren van pagina tot pagina, afbeeldingen openen en video's afspelen. Je kan de gearchiveerde webpagina's onmiddellijk openen via http://localhost:8880/brozzler/

Het is ook mogelijk om een website te laten crawlen via een job. Dit is een configuratiebestand waarmee je extra vereisten en informatie kan toevoegen aan de crawl, bv. metadata die mee ingebed moet worden, een gebruikersnaam en wachtwoord waarmee de crawler kan inloggen in de website, etc. Meer informatie over jobs kan je vinden op de Brozzler Job Configuration documentatie.

Brozzler Dashboard

Om de status van de crawl te volgen, kan je het dashboard gebruiken. Start het dashboard door in de command line het commando brozzler-dashboard in te geven. Vanaf dan zal het dashboard beschikbaar zijn op http://localhost:8000.

Software:Brozzler

Installatie

Getting started

Brozzler Dashboard

Navigatiemenu

Zoeken