Publicatie:Sociale netwerken scrapen met snscrape

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


Samenvatting

In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om verschillende sociale media platformen te archiveren. Deze publicatie beschrijft de tool snscrape. Een tool die in het archiveringsproces van sociale media belangrijk is in het afbakenen van te archiveren content door het scrapen van URLS. Zodanig dat software zoals grab-site of wget meer efficient de content kunnen crawlen.


Referentie
Titel Sociale netwerken scrapen met snscrape (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave
Rechten
Persistent ID


Snscrape is een open source CLI programma om informatie van sociale media te scrapen, meer bepaald: gebruikersprofielen, hashtags, zoekopdrachten. snscrape ondersteunt momenteel de volgende platformen en onderdelen:

  • Facebook: gebruikersprofielen en groepen
  • Instagram: gebruikersprofielen, hashtags en locaties
  • Telegram: kanalen
  • Twitter: gebruikersprofielen, hashtags, zoekopdrachten, threads en lijsten (zowel leden als berichten)
  • VKontakte: gebruikersprofielen

Snscrape gaat URL's scrapen naar een tekstbestand. Er wordt geen data gedownload. De software is vooral nuttig als eerste stap in het archiveringsproces van een sociaalmediaplatform.

In een volgende stap kan het bestand gebruikt worden in combinatie met bijvoorbeeld wget met de -i / --input optie om de URL's opgehaald door snscrape te downloaden.

Installatie:

De installatie gebeurt via de terminal en pip (de python package manager).

pip3 install snscrape

Dev versie:

pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git

Voorbeelden:

Twitter:

Om alle tweets te archiveren van een bepaalde gebruiker, in dit voorbeeld, @meemoo_be:

snscrape twitter-user meemoo_be

Om de output weg te schrijven naar een specifieke map en bestandsnaam:

snscrape twitter-user meemoo_be >/pad/naar/map/meemoo_be.txt"

Facebook Group (publiek):

snscrape facebook-group talkgent >TALK-Gent.txt