Software:Grab-site

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


grab-site (Voorkeurstitel)
Beschrijving

Grabsite is een open-source tool die websites kan archiveren naar een WARC-bestand.


Systeemvereisten

Python 3.7 of hoger


Documentatie
Beheerder
Specificatie
Documentatie
Persistent ID


Grabsite is een open-source tool die websites kan archiveren naar een WARC-bestand. De tool is in staat om naast standaardwebsites ook sociale media te archiveren, zoals blogs, subreddits, mediawiki’s. De installatie en het starten van de applicatie verloopt via de terminal. De voortgang van de tool is te volgen in een dashboard (localhost) in de web-browser.

Installatie Linux:

Voor gebruikers met beheersrechten
  1. sudo apt-get update
  2. sudo apt-get install --no-install-recommends git build-essential libssl-dev zlib1g-dev libbz2-dev libreadline-dev libsqlite3-dev libffi-dev libxml2-dev libxslt1-dev libre2-dev pkg-config
Voor gebruikers zonder beheersrechten
  1. wget https://raw.githubusercontent.com/pyenv/pyenv-installer/master/bin/pyenv-installer
  2. chmod +x pyenv-installer
  3. ./pyenv-installer
  4. ~/.pyenv/bin/pyenv install 3.7.8
  5. ~/.pyenv/versions/3.7.8/bin/python -m venv ~/gs-venv
  6. ~/gs-venv/bin/pip install --no-binary lxml --upgrade git+https://github.com/ArchiveTeam/grab-site

Upgraden

Een al eerder geïnstalleerde versie van Grab-site upgraden.
  1. ~/gs-venv/bin/pip install ...
  2. Stop het gs-server process in de terminal vervolgens met ctrl+c en start opnieuw met gs-server.

Gebruik

Start de grab-site server met het volgende commando:
  • gs-server

Het starten van de grab-site crawl van een website gebeurt via de terminal. Start een nieuw terminal venster. Kopieer de URL van de website die gearchiveerd moet worden bijvoorbeeld “www.meemoo.be”. Dan zou het commando grab-site [opties] www.meemoo.be moeten zijn. Het is mogelijk om verschillende URLs na elkaar in te geven. De voortgang van het crawlen/downloaden is te volgen via het dashboard van GrabSite via de lokale url: http://localhost:29000/

Opties

De meest gebruikte opties hieronder, de volledige lijst van opties zijn hier te vinden

https://github.com/ArchiveTeam/grab-site#grab-site-options-ordered-by-importance

Opties kunnen gebruikt worden voor of na de ‘URL’.

  • --dir=DIR: DIR= Absoluut pad naar aangepaste directory voor controlebestanden, tijdelijke bestanden en onvoltooide WARC's in DIR= standaard: een mapnaam op basis van de URL, datum en de eerste 8 tekens van de id, in de map waar het commando is gestart. voorbeeld van aangepast pad: --dir=/home/gebruikersnaam/grab-site/meemoo
  • --1: download de url en de pagina vereisten, niet recursief
  • --no-offsite-links: Vermijd het volgen van links met een niveau van 1 op andere domeinen.

Grab-site downloadt altijd de paginavereisten (bijvoorbeeld inline afbeeldingen en stylesheets), zelfs als ze zich op andere domeinen bevinden. Standaard grijpt grab-site ook gelinkte pagina's met een diepte van 1 op andere domeinen. Gebruik --no-offsite-links om dit gedrag uit te schakelen. Het gebruik van --no-offsite-links kan ervoor zorgen dat allerlei nuttige afbeeldingen, video, audio, downloads, enz. niet worden gedownload, omdat deze vaak worden gehost op een CDN of subdomein en anders niet zouden worden opgenomen in de recursieve crawl.

  • --no-video: Sla het downloaden van video's over op zowel het mime-type als de bestandsextensie. Overgeslagen video's worden vastgelegd in DIR/skipped_videos. Kan tijdens het crawlen worden gewijzigd door het DIR / videobestand aan te passen of te verwijderen.
  • -i / --input-file: Laad lijst met URL's om te downloaden uit een lokaal bestand of uit een URL; zoals wget -i. Het bestand moet een nieuwe, door regels gescheiden lijst met URL's zijn. Combineer met --1 om recursieve crawl op elke URL te voorkomen. Voorbeeld: --input-file /pad/naar/bestand
  • --no-sitemaps: Plaats geen URL's van sitemap.xml in de root van de site
  • --max-content-length=N: Sla het downloaden over van elke response dat een Content-Lengte heeft groter is dan N. (standaard: -1, sla niets over) Overgeslagen URL’s worden vastgelegd in DIR/skipped_max_content_length. Kan tijdens het crawlen worden gewijzigd door het DIR/max_content_length aan te passen of te `rm`en.
  • --delay=N: N= Aantal milliseconden dat gewacht moet worden tussen de verzoeken aan de website.
  • --import-ignores: Gebruik een pad naar een bestand waar deze optie om een pad in te geven dat alle URL’s in staan die altijd moeten genegeerd worden bij het archiveren van een website.
  • --level=N: N= Aantal recursieve niveaus in plaats van het standaard, oneindig aantal niveaus. voorbeeld: --level=4, om maximum 4 niveaus recursief te crawlen.
  • --ua=STRING: Stuur user-agent: STRING in plaats van Firefox op Windows.
  • --finished-warc-dir=FINISHED_WARC_DIR: Absoluut pad naar een map waarin voltooide .warc.gz- en .cdx-bestanden worden verplaatst.
  • --igon: Print alle URL's die worden genegeerd naar de terminal en het dashboard. Kan tijdens het crawlen worden gewijzigd door het DIR/igoff-bestand aan te passen of te verwijderen.