Projecten:Archivering Sociale Media

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken

Sociale media vervullen vandaag een belangrijke rol in de communicatie over diverse maatschappelijke onderwerpen door een brede waaier van actoren. Ondanks hun belang als bron voor (wetenschappelijk) onderzoek, worden ze nog steeds weinig gearchiveerd. Ditproject ontwikkelt best practices om individuele social media accounts te capteren en te archiveren, en doet ook voorbereidend onderzoek in functie van best practices voor het capteren van social media m.b.v. API’s en tools voor derden.

WP1: voorbereiding van de captatie van individuele accounts

Dit werkpakket omvat het onderzoek en de keuze van de API's en tools voor de captatie, het opzetten van workflows en de nodige technische infrastructuur, een analyse van de te capteren sociale media streams en de opstart van de voorbereidende gesprekken i.v.m. de ingest van de te capteren sociale media streams.

Resultaten

  • D1: Workflow(s) voor de captatie van individuele accounts (Timing: december 2020)
  • D2: Handleidingen voor zelfarchivering van individuele accounts (Timing: december 2020)
  • D3: Workflow(s) voor de ingest en preservering van sociale media accounts (Timing: januari 2021)

T1.1: Keuze van API's en tools voor captatie van individuele accounts

Dit bestaat uit een analyse en selectie van de verschillende tools.

Verkende tools:

Nog te verkennen:

Voorlopige vaststellingen

  • SquidWarc zou via het gebruik van lokale cookies in een folder van chrome moeten kunnen inloggen in Twitter, Facebook, etc. In mijn huidige omgeving (macOS) blijkt dit niet te lukken. Zie ook dit issue op GitHub
  • Browsertrix
    • biedt de mogelijkheid om een profiel aan te maken. je kan je eerst inloggen in verschillende sites en vervolgens dit profiel gebruiken om die sites waarvoor je moest inloggen te crawlen. lijkt te werken.
    • zou via de behaviors facebook, twitter, etc. moeten kunnen archiveren, maar ik merk bij facebook dat slechts de eerste x-aantal posts gearchiveerd werden. Mogelijk legt facebook een beperking op op het scrollen, maar het zou ook kunnen dat mijn internetverbining niet sterk genoeg is.
    • browsertrix blijft vaak hangen
  • brozzler
    • gaat geautomatiseerd door webpagina's en voert gedrag uit: afbeeldingen openen, video's afspelen
    • sinds kort (30/10/2020) is er een issue met facebook om in te loggen ==> gelukt nu!
    • het is noodzakelijk om in te loggen bij facebook, zelfs als je publieke pagina's archiveert omdat je anders een giga banner met 'maak een account aan' krijgt die niet meer weg wil.
    • lijkt stabieler dan browsertrix, dat eerder log is en snel uitvalt.
  • Webrecorder zou via de behaviors geautomatiseerd facebook moeten kunnen archiveren, maar de behaviors zijn nog niet geïmplementeerd omdat de ontwikkelaar geen tijd heeft. De autoscrolling scrolt niet naar beneden. Zou ook kunnen afhangen van mijn internetverbinding.
    • handig voor kleine hoeveelheden data, maar minder geschikt voor grote pagina's
    • na een tijd willen de posts ook niet meer laden.
    • maar het blijft een van de eenvoudigere manieren om dynamische websitecontent te archiveren.
  • voor facebookpagina's lijkt de download-functie van Facebook de eenvoudigste en volledigste manier om een account (pagina) te archiveren.
    • comments van derden komen wel niet mee
    • posts die gedeeld werden van derden komen eveneens niet mee
    • de lay-out van de originele facebookpagina is anders
    • ook zijn de URL's gewijzigd
    • en ben je likes en reacties kwijt
    • maar je hebt wel alle posts die gemaakt werden door de pagina en ook heb je alle foto's die opgeladen werden door de pagina
    • het lijkt ook mogelijk te zijn om facebook stories op deze manier mee te krijgen (niet getest)
    • de downloadfunctie geeft je HTML-pagina's, maar met behulp van warcit kan je ze omzetten naar een WARC-bestanden
    • je kan ook een JSON exporteren. daarin heb je wat meer metadata over de foto's.
    • inhoud van de map:
      • overzichtspagina met de comments die de pagina owner gepost heeft
      • events
      • gegevens over groepen die verbonden zijn aan deze pagina
      • jobs (geen idee wat dit is?)
      • iconen van likes en reacties
      • other page activity (geen idee wat dit is)
      • profielinformatie over de pagina
      • page settings
      • foto's en video's (op eerste zicht in originele grootte)
      • overzichtspagina van de posts
      • overzichtspagina van de profielinformatie
      • services (geen idee wat dit is)
      • settings
      • stories
  • facebook verandert voortdurend zijn code waardoor het ingewikkeld is om te archiveren.
    • Nu (30/10/2020) geeft facebook issues wanneer je een profiel maakt via Browsertrix (zie eerder) of als je geautomatiseerd wil inloggen via brozzler.
    • Bovendien wordt niet alles gecapteerd omdat facebook overal zijn logaritme voor gebruikt. Als je facebookposts aan het archiveren bent met een crawler, komen enkel de comments mee die facebook voor jou relevant vindt, maar niet alle comments.
  • warcworker geeft een issue wanneer je de ingebedde scripts gebruikt, maar lijkt ook niet te kunnen inloggen in een Facebookpagina.
  • Ultimate Facebook Scraper kan afbeeldingen downloaden en verzamelt gegevens in .txt-bestanden. De code moet aangepast worden aan de nieuwe layout van Facebook.
  • Twitter download:
    • als je je archief opvraagt, kan je het dertig dagen lang niet opvragen
    • je krijgt een zip-bestand met daarin o.m. index.html als overzichtspagina en ook verschillende mappen met foto's (duidelijk kleiner en gecomprimeerd dan origineel)
    • index.html heeft handige filterfunctie met bv. doorzoeken van tweets tussen een bepaalde periode
    • inhoud van index.html:
      • informatie over account: erg privacygevoelig (e-mailadres + e-mailadressen en telefoonnummers van contacten)
      • tweets / antwoorden / retweets: afbeeldingen kunnen niet vergroot worden & originele post + media is verdwenen bij retweets en antwoorden (enkel tekst). look&feel wel behouden
      • vind-ik-leuks: berichten met enkel tekst. media is verdwenen. ook datum + profielfoto en naam van degene die de tweets postte is verdwenen
      • privéberichten: alle berichten behouden maar geen naam erbij
      • veiligheid: wie werd geblokkeerd en genegeerd
      • personalisatie: de personalisatiegegevens die twitter van de gebruiker heeft (privacygevoelig?)
      • adverteerders: lijst van adverteerders die gebruiker gezien zou kunnen hebben
      • lijsten
      • momenten
    • https://help.twitter.com/nl/managing-your-account/accessing-your-twitter-data
  • instagram download is ook mogelijk. gebeurt via e-mailadres en wachtwoord (dus ook als je je account via facebookaanmelding gebruikt)
    • na een bepaalde tijd ontvang je een mail met locatie naar download
    • itt facebook en twitter heb je hier geen overzicht in html, maar allemaal losse json-bestanden
    • er zijn ook mappen photos, stories en videos. deze zijn geordend in een folder per datum. je krijgt geen instagramposts te zien, maar losse foto's en video's etc. ook de stories zijn geen geheel. je krijgt een mp4 of jpg per deel dat toegevoegd werd aan de story.
    • beschrijvingen van een post staan vermoedelijk in een json. er zijn verschillende jsons, o.a. wat je gezien hebt, wat je geliket hebt, comments die je geplaatst hebt. referentie naar de post gebeurt door een datum en naam van het account. niet eenvoudig te linken dus.
    • er is ook privacygevoelige informatie zoals account_history waarin onder meer je login geschiedenis staat, naam en e-mailadres van contacten, etc.
    • itt facebook en twitterdownload mss toch geen goede manier om archiveren.

Interessante informatie

T1.2: Opzetten van captatieworkflow en technische infrastructuur

Dit bestaat uit het opzetten van een technische infrastructuur waarin de tools worden gekoppeld aan een digitaal archief en de opmaak van handleidingen voor de zelfarchivering van individuele accounts.

Voorlopig voorstel workflow

!!!BELANGRIJK: tweestapsverificatie moet uitgeschakeld zijn wanneer het nodig is om in te loggen!!!

  1. organisatie maakt account om te archiveren op betreffend sociale media kanaal
    • waarom? bij het capteren wordt ook de profielfoto gecapteerd
    • eventueel andere privacy zaken kunnen in het archief terchtkomen
  2. indien stream niet publiek: account moet toegang krijgen tot sociale media stream (bv. fbgroep)
  3. keuze voor tool afhankelijk van use case
    • is enkel de inhoud belangrijk, bv. voor research --> tools die gegevens verzamelen in gestructureerde tekstformaten
    • is het belangrijk om in een mooie layout te tonen --> tools die geheel in WARC-file verzamelen en presenteerbaar maken
  4. validatie --> hoe? alvast bekijken in ReplayWeb.page of Webrecorder Player

Samenvoegen van WARC-bestanden met warcat: python3 -m warcat --output your-warc.warc.gz --force-read-gzip --gzip --progress concat your-folder-with-warc.gz-files/*

Handleidingen

T1.3: In kaart brengen van de noden i.v.m. het capteren van sociale media streams

  • analyse van de noden van de archiefinstellingen
  • analyse van de noden van potentiële externe gebruikers van de te archiveren social media streams

T1.4: Analyse van de te capteren social media strams

  • toegang regelen tot individuele accounts m.b.v. overeenkomsten
  • inschatting rechtensituatie van de data uit pilootprojecten
  • afbakening van de dataset op basis van een analyse van de data/gebruik van accounts (alles, bepaalde periode, bepaalde contacten, ...)

T1.5: Voorbereiding ingest van de te capteren social media streams

  • opstart van de voorbereidende gesprekken
  • uittekenen van de ingestworkflows

WP2: captatie van individuele accounts

Dit bestaat uit een aantal pilootprojecten waarin diverse social media accounts worden gecapteerd. De captaties worden uitgevoerd door meemoo en de content partner.

Kanalen:

  • Instagram
  • Twitter
  • Facebook
  • YouTube

Resultaten

  • D4: Verslag over de captatie van de social media accounts in het kader van de 11 pilootprojecten, incl. evaluatie van de gratis tools die werden gebruikt en datasets met de gecapteerde verschillende social media streams. (Timing: april 2021)

WP3: ingest en preservering

Dit werkpakket betreft de ingest en preservering van een reeks sociale media accounts in de vorm van respectievelijk SIP's en AIP's. Het omvat zowel het definiëren van de minimale eisen waaraan de SIP's en AIP's moeten voldoen als de uitvoering van de drie pilootprojecten.

Resultaten

  • D5: Specificaties voor SIPs en AIPs voor de archivering van sociale media accounts (Timing: juli 2021)

T3.1: Voorbereidend onderzoek SIPs en AIPs

KADOC en meemoo definiëren de specificaties waaraan de SIPs en AIPs moeten beantwoorden, incl. formaten en metadataschema.

T3.2: Pilootproject meemoo

Ingest van data in het archiefsysteem van meemoo.

T3.3: Pilootproject KADOC

Ingest van data in het archiefsysteem van KADOC.

T3.4: Pilootproject AIDA

Ingest van data in het archiefsysteem van AIDA (o.v.)

WP4: voorbereidend onderzoek in functie van het capteren van sociale media

Dit omvat de analyse van de API's en tools voor derde partijen om sociale media te capteren en een afbakening van de dataset.

Resultaten

  • D6: Rapport over voorbereidend onderzoek i.f.v. het capteren van sociale media m.b.v. API's en tools voor derde partijen (Timing: augustus 2021)

T4.1: Keuze van API's en tools voor derde partijen voor captatie van sociale media

Dit bestaat uit een analyse van API's en tools.

T4.2: Analyse van de te capteren sociale media

Dit bestaat uit het afbakenen van de dataset op basis van een analyse van de data.

WP5: projectmanagement, communicatie en disseminatie

Het omvat de organisatie van de bijeenkomsten van de stuur- en klankbordgroep, de coördinatie van de verschillende betrokken partners, de projectadministratie, de communicatie over het project en het delen van de projectresultaten via diverse kanalen.

Resultaten

  • D7: Eindrapport Fase 1: naar een duurzaam model voor de captatie en archivering van sociale media (Timing: augustus 2021)
  • D8: Disseminatierapport (Timing: augustus 2021)