Publicatie:Sociale netwerken scrapen met snscrape

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om verschillende sociale media platformen te archiveren. Deze publicatie beschrijft de tool snscrape. Een tool die in het archiveringsproces van sociale media belangrijk is in het afbakenen van te archiveren content door het scrapen van URLS. Zodanig dat software zoals grab-site of wget meer efficient de content kunnen crawlen.


Referentie
Titel Sociale netwerken scrapen met snscrape (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2020
Rechten CC-BY-SA
Persistent ID


Snscrape is een open source CLI programma om informatie van sociale media te scrapen, meer bepaald: gebruikersprofielen, hashtags, zoekopdrachten. snscrape ondersteunt momenteel de volgende platformen en onderdelen:

  • Facebook: gebruikersprofielen en groepen
  • Instagram: gebruikersprofielen, hashtags en locaties
  • Telegram: kanalen
  • Twitter: gebruikersprofielen, hashtags, zoekopdrachten, threads en lijsten (zowel leden als berichten)
  • VKontakte: gebruikersprofielen

Snscrape gaat URL's scrapen naar een tekstbestand. Er wordt geen data gedownload. De software is vooral nuttig als eerste stap in het archiveringsproces van een sociaalmediaplatform.

In een volgende stap kan het bestand gebruikt worden in combinatie met bijvoorbeeld wget met de -i / --input optie om de URL's opgehaald door snscrape te downloaden.

Vereisten:

Snscrape vereist Python 3.6 of hoger. Python installeren op Windows, Mac Os X, Linux.

De installatie gebeurt via de terminal en pip (de python package manager).

Kopier en plak het volgende commando in de [terminal]. In het geval van windows, powershell of Command Prompt.

pip3 install snscrape

Of installeer de dev versie:

pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git


Gebruik

Snscrape verwacht een specifieke volgorde van opties om te werken.

snscrape module-naam target > /pad/waar/je/het/bestand/wilt/opslaan.extensie (target is hier de ID van het gebruikersprofiel of pagina id.)
> : Is een operater (redirect) die gebruikt wordt om resultaten van een command-line interface programma weg te schrijven of te "redirecten" naar een plek en of bestand.
Om bijvoorbeeld een bestaand bestand te updaten met nieuwe resultaten gebruik de "append" operator: >> gevolgd door het pad en bestandsnaam plus extensie.


Op windows verander de "/" naar "\".
Bijvoorbeeld: c:\Users\JouwGebruikersNaam\Documents\facebook\EenFacebookgroep.extensie

Om bijvoorbeeld te archiveren naar de map "snscrape" in de map "Documents" op windows. snscrape optie module-naam target > c:\Users\JouwGebruikersNaam\Documents\snscrape\bestand.extensie

Snscrape ondersteund verschillende platformen en of onderdelen: telegram-channel,vkontakte-user,weibo-user,facebook-group,instagram-user,instagram-hashtag,instagram-location,reddit-user,reddit-subreddit,reddit-search,twitter-thread,twitter-search,facebook-user,facebook-community,twitter-user,twitter-hashtag,twitter-list-posts,twitter-profile

Opties om de vooruitgang te bekijken of om de resultaten weg te schrijven naar jsonl komen meteen na snscrape. bijvoorbeeld: snscrape --json facebook-group IdVanFacebookGroep of snscrape --progress facebook-group IdVanFacebookGroep

Bij het gebruik van de optie --json gebruik de extensie ".jsonl". Bijvoorbeeld: snscrape --jsonl twitter-profile c:\Users\Lode\Documents\snscrape\bestand.jsonl


Voorbeelden

Twitter:

Om alle tweets te archiveren van een bepaalde gebruiker, in dit voorbeeld, @meemoo_be:

snscrape twitter-user meemoo_be

Om de output weg te schrijven naar een specifieke map en bestandsnaam:

snscrape twitter-user meemoo_be >/pad/naar/map/meemoo_be.txt"

Facebook Group (publiek):

snscrape facebook-group talkgent >TALK-Gent.txt


Troubleshooting

  • Verwijderen van snscrape

pip3 uninstall snscrape

  • Bij het testen met het commando snscrape --help werd duidelijk dat er problemen waren met de standaard versie van snscrape.

Screenshot van snscrape --help command in command prompt

Oplossing: Installeer de dev versie van snscrape. pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git

  • Eind maart 2021 werd vastgesteld dat Facebook snscrape blokkeert (issue #208). Tot zolang de developers achter snscrape dit niet hersteld hebben, kan deze handleiding niet gebruikt worden voor Facebook. Je kan wel proberen Facebook te archiveren met enkel Browertrix. Bekijk hiervoor de handleiding Sociale media