Software:Brozzler

From Meemoo Kennisbank
Jump to navigation Jump to search


brozzler (Voorkeurstitel)
Beschrijving

Brozzler is een gedistribueerde webcrawler die gebruik maakt van een echte browser (Chrome of Chromium) om webpagin's op te halen. Het is daarom in staat om dynamische websites te capteren. Het bevat scripts met menselijk gedrag om interacties te capteren (bv. naar beneden scrolling, media afspelen, etc.). Crawls worden opgestart via de command line; de voortgang kan gevolgd worden via een webinterface. Webarchieven worden opgeslagen in het WARC-formaat.


Systeemvereisten
  • Python 3.5 of hoger
  • RethinkDB
  • Chromium of Google Chrome versie 64 en hoger


Documentatie
Beheerder
Specificatie
Documentatie
Persistent ID


Installatie

Met pip3 install brozzler[easy] installeer je de crawler

Met pip3 install brozzler[dasboard] installeer je het dashboard om je crawls te volgen en te bekijken.

Getting started

Om brozzler op te starten moet je commando's ingeven in de command line interface.

De eenvoudigste manier om een website te capteren:

Vervolgens zal een browser openen en kan je geautomatiseerd gedrag zien in de browser zoals navigeren van pagina tot pagina, afbeeldingen openen en video's afspelen. Je kan de gearchiveerde webpagina's onmiddellijk openen via http://localhost:8880/brozzler/

Het is ook mogelijk om een website te laten crawlen via een job. Dit is een configuratiebestand waarmee je extra vereisten en informatie kan toevoegen aan de crawl, bv. metadata die mee ingebed moet worden, een gebruikersnaam en wachtwoord waarmee de crawler kan inloggen in de website, etc. Meer informatie over jobs kan je vinden op de Brozzler Job Configuration documentatie.

Brozzler Dashboard

Om de status van de crawl te volgen, kan je het dashboard gebruiken. Start het dashboard door in de command line het commando brozzler-dashboard in te geven. Vanaf dan zal het dashboard beschikbaar zijn op http://localhost:8000.