Publicatie:Catching the digital heritage

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

Op deze wiki-pagina zullen de conclusies gepubliceerd worden van het project websitearchivering 'Catching the digital heritage'. Dit project is een samenwerking tussen Amsab-ISG en Liberas/Liberaal Archief, met steun van de Vlaamse Overheid. Het project ging in maart 2019 van start, en loopt tot maart 2020. Deze wiki-publicatie is dus een work-in-progress, en zal regelmatig aangepast worden naar mate het project vordert.


Referentie
Titel Catching the digital heritage (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2019
Rechten CC-BY-SA
Persistent ID


In 2018 werkten Amsab-ISG en Liberas/Liberaal Archief samen een projectaanvraag uit onder de titel 'Catching the digital heritage'. Sinds maart 2019 zijn op dit project twee medewerkers aangeworven. De doelstellingen van het project zijn de volgende:

  • Het uitwerken van een praktische procedure voor het archiveren van websites (ingest)
  • Het uitwerken van een gepaste methode om de gearchiveerde websites en bijhorende data duurzaam te bewaren
  • Het uitwerken van een metadataschema dat gemapt kan worden naar verschillende software systemen voor collectiebeheer
  • Het onderzoeken van verschillende mogelijkheden om gearchiveerde websites toegankelijk te maken
  • Het in kaart brengen van de juridische implicaties en beperkingen die samenhangen met web-archivering

De expertise die wordt opgebouwd doorheen het project zal vrij ter beschikking gesteld worden (onder meer via deze pagina).

Archiveringssoftware voor websites (crawlers)

De software waarmee we websites archiveren worden ook wel crawlers, spiders of spiderbots genoemd. Dit zijn software die het world wide web op een geautomatiseerde manier doorbladeren en hierbij bepaalde informatie indexeren of archiveren. Deze programma's vertrekken vanaf een bepaalde URL (de seed-URL), en volgen vervolgens alle URI’s die ze tegenkomen en maken er snapshot van, d.i. een momentopname van hoe de website eruit zag op het moment dat de crawler de URL bezocht. Dit archiveren wordt ook wel harvesten - oogsten - genoemd.

In het kader van het CtDH-project hebben we een aantal crawlers vergeleken, rekeninghoudend met verschillende factoren, zoals gebruiksgemak, kwaliteit van de kopie, bewaarvorm, etc. Voor we verder ingaan op de resultaten van deze vergelijkende studie, is het belangrijk om te benadrukken dat niet elke website (volledig) accuraat te archiveren valt. Over het algemeen hebben crawlers het moeilijk met dynamische content. Voor websites die om wat voor reden dan ook niet met een crawler te archiveren zijn, rest de optie om een screencast te nemen. Programma’s als Webrecorder laten toe om pagina’s te archiveren door manueel door de website te navigeren. Hoewel dit vrij arbeidsintensief is, kan het een oplossing zijn wanneer niets anders lijkt te werken. Lees de publicatie Hoe archiveer je websites? voor meer informatie over verschillende strategieën om een website te archiveren.

In het verleden hebben zowel Liberas/Liberaal Archief als Amsab-ISG gewerkt met de Windows-versie van het programma HTTrack. HTTrack is een eenvoudig programma: het werkt op Windows, Mac en Linux, het heeft een GUI met duidelijke configuratie-instellingen, en levert een lokale kopie van de website in HTML-formaat. Dit betekent dat er geen extra software nodig is om de gearchiveerde website te raadplegen. De kwaliteit van HTTrack crawls is echter sterk achteruit gegaan in de voorbije jaren, en de websites worden ook niet bewaard in het WARC-formaat (ISO 28500/2017: the Web ARChive (WARC) archive format). Vandaar de nood om een betere website-archiveringsprogramma (crawler) te vinden.

Crawlers vergelijken

Als start van onze crawlervergelijking werden een selectie websites opnieuw geharvest met HTTrack, maar ook met Wget (linux-versie, commandline), en met Heritrix. We testen momenteel ook Web Curator Tool, een programma met GUI dat het werken met Heritrix makkelijker zou moeten maken. Er werden data verzameld over:

  • Kwaliteit data
    • Algemeen resultaat
    • Aantal errors en waarschuwingen
    • Visuele controle
  • Gebruiksgemak
    • Installatie programma [van makkelijk naar moeilijk: 1-5]
    • Uitvoeren crawls [van makkelijk naar moeilijk: 1-5]
  • Grootte bestanden
  • Aanwezigheid van metadata

De onderstaande tabel geeft de algemene resultaten weer per crawler.

Crawler Installatie Gebruik kwaliteit Output Meta-data
HTTrack 1 1 verminderd HTML Duidelijke log-file [HTSlog]
Wget 1 2 Goed HTML én WARC Log data in WARC / kan ook via commandline
Heritrix 2 3 Goed WARC Log data in WARC
Web Curator Tool 5 - - - - - - WARC Log data in WARC


Wget versus Heritrix (met handleidingen)

Wget werkt via de Unix command line, maar je kan het ook op Windows gebruiken via Cygwin] of een virtual environment. Er werd in het project ook een Bash script opgesteld dat toelaat om grote hoeveelheden websites te archiveren (zie onderstaande handleiding en script). De kwaliteit van de gearchiveerde websites is beter in vergelijking met Httrack, en de websites worden in het standaardformaat (WARC) bewaard.

Een nadeel van het WARC-formaat is dat er extra software nodig is om de gearchiveerde website te raadplegen. Er zijn drie programma's die hiervoor gebruikt kunnen worden: Webrecorder.io , Openwayback en sinds kort ook Web Archive Browsing Advanced Client. Er wordt aangeraden om gebruik te maken van Openwayback, maar dit programma kan lastig te installeren zijn. Het probleem met de WARC-bestanden zoals Wget deze aanmaakt is dat deze verouderd zijn. Wget volgt ISO 28500/2007 en niet ISO 28500/2017. In de oudere versie van WARC stonden er haakjes '<' '>' rondom de URL in de metadata. Deze haakjes zorgen ervoor dat Openwayback de WARC-bestanden niet herkent. Een oplossing is hier te vinden: zie het pythonscript in de comments. We kunnen deze WARC-bestanden wel aanpassen, maar om dit te doen voor honderden websites is niet bijzonder efficiënt.

De installatie en het gebruik van Heritrix kan voor iemand met weinig kennis van Unix command line een uitdaging vormen. De standaardinstellingen van Heritrix laten het programma nogal traag werken. Het is daarom aangeraden om in de crawlerbeans de politeness-parameters aan te passen en extra geheugen toe te wijzen aan Heritrix.

Handleidingen

Meer informatie over Wget en Heritrix kan je vinden in onderstaande handleidingen:

Conclusie

In het verleden hebben zowel Amsab-ISG als Liberas gebruik gemaakt van Httrack voor het archiveren van websites, maar we zijn hiervan afgestapt. Vorig jaar hadden namelijk 32,2% van alle gearchiveerde websites fouten, en deze websites werden niet bewaard in het standaardformaat WARC.

In het begin van het project hebben we voornamelijk gewerkt met Wget en is er een script opgesteld dat toelaat zeer efficiënt grote hoeveelheden websites te archiveren. De kwaliteit van de gearchiveerde websites is beter dan bij Httrack, en ze worden bewaard in het standaardformaat WARC. Helaas maakt Wget een verouderde versie van het WARC-formaat aan waardoor er nog een kleine ingreep nodig is om de websites raadpleegbaar te maken.

Heritrix wordt aanzien als het standaardprogramma van websitearchivering, maar kan een uitdaging vormen om te installeren en configureren. Het is noodzakelijk om de standaardconfiguratie aan te passen, anders werkt het programma traag.

Registratie en Metadata

Metadata voor gearchiveerde websites: OCLC richtlijnen

Momenteel bestaat er nog geen algemeen erkende standaard voor het beschrijven van websites. Wel heeft de werkgroep web archiving metadata van de Online Computer Library Center (OCLC) richtlijnen uitgebracht, bestaande uit veertien beschrijvende metadata-elementen.[1] Na een studie van user-needs[2] heeft de OCLC bestaande bibliotheek-, en archiefstandaarden geanalyseerd en 14 metadata-elementen uitgekozen, om één uniforme oplossing te kunnen aanbieden voor de bibliotheek- en archiefsector. De metadata-richtlijnen van de OCLC worden inmiddels als basis beschouwd voor het beschrijven van websites. Er zijn echter nog een aantal moeilijkheden die hiermee niet zijn opgelost. Ten eerste besteed OCLC in de richtlijnen weinig aandacht aan technische metadata, terwijl die uit onderzoek naar het gebruik van webarchieven door onderzoekers steevast als essentieel worden benoemd.[3] Welke technische metadata er kunnen worden opgenomen hangt af van de gekozen standaard, maar ook van de crawler die gebruikt wordt. Ten tweede gaat het hier om richtlijnen, en dus nog geen standaard. De metadata-elementen die OCLC voorstelt moeten dus nog gemapt worden naar een bibliotheek- of archief- standaard (bvb. EAD, MARC21, ISAD(G), Dublin Core). De keuze van de standaard die uiteindelijk gebruikt wordt hangt in gelijke mate af van de mate waarin de standaard toelaat de OCLC metadata-elementen, én de voor handen zijnde technische metadata, te incorporeren, en van de bestaande registratiepraktijken en -software binnen de organisatie. Hoe dan ook houdt een dergelijke mapping moeilijke keuzes in, waarbij sommige velden enigszins worden geherinterpreteerd. Een interne handleiding is dus noodzakelijk om ervoor te zorgen dat de registratie naar behoren kan gebeuren.

Technische Metadata

Zoals hierboven aangegeven leert onderzoek naar het gebruik van webarchieven door onderzoekers dat het nodig is om ook metadata ter beschikking te stellen van technische aard. Onderzoekers willen weten hoe een website is gearchiveerd, met welke software, in welk formaat. Ook een indicatie van de kwaliteit van de kopie kan handig zijn.

Om dergelijke metadata ter beschikking te stellen, moeten ze wel voor handen zijn natuurlijk. Hier speelt de keuze van crawler een grote rol. Zo maakt HTTrack automatisch een redelijk leesbare logfile aan, genaamd htslog.txt. Van daar uit kunnen een heel aantal gegevens geëxporteerd worden naar Excel. Een crawl met HTML-output in Wget maakt dan weer standaard geen logfile aan. Het is echter wel mogelijk om zelf een log te genereren. Ook hieruit kunnen gegevens geëxporteerd worden naar Excel. Hoe we die export (deels) automatiseren via command line vind je in het document Bestand:Handleiding HTTrack en Wget metadata naar bruikbaar excel bestand.pdf. Aangezien er nog heel wat 'schoningswerk' was aan deze methode om de metadata in Excel te krijgen, is er een Python-script opgesteld dat toelaat om websites gearchiveerd door Httrack, Wget en Heritrix automatisch te beschrijven (cf. infra).

Onze keuze voor technische metadata is beperkt gebleven tot de volgende elementen: crawlerversie, startdatum crawl, URL; en voor intern gebruik: errorlog, bestandsgrootte en een lijst met extensies.

Het aantal technische metadata dat we opnemen is relatief beperkt. Dit omwille van twee redenen:

  1. Het merendeel van de websites in de collectie van het liberaal archief en Amsab-ISG zijn in het verleden geharvest met Httrack. In de htslog.txt van Httrack wordt slechts een beperkt aantal metadata aangeboden.
  2. De moeilijkheden om technische metadata een goede plaats te geven in archiefstandaarden, en hiermee samenhangend het opnemen in de registratiesoftware, beperkt ook het soort technische metadata dat kan opgenomen worden in het registratiesysteem.

Beschrijven aan de hand van Bash en Python

Om websites efficiënt te beschrijven moet het mogelijk zijn om de technische metadata van elke website op automatische wijze te genereren. De werkwijze hangt af van welke crawler je hebt gebruikt om de website te archiveren, en de manier waarop deze website bewaard wordt.

  • Voorbeeld van een Bash commando die bruikbaar is bij Httrack: find . -iname "hts-log.txt" -print0 | xargs -0 grep "launched on" > output.txt
  • Voorbeeld van een bash commando die bruikbaar is bij Wget: find . -type f "*.warc*" -print0 | xargs -E -m3 'WARC-Target-URI|WARC-Date|Software' > output.txt

Het nadeel van bovenstaande commando's is dat er nog schoningswerk volgt vooraleer de metadata in Excel kan geïmporteerd worden. Er is daarom een Python-script opgesteld die in staat is om websites te beschrijven die gearchiveerd zijn door Httrack, Wget en Heritrix. Beschrijvingsscript -- gebruik op eigen risico

Mapping van de OCLC-richtlijnen naar ISAD(G)

Voor de beschrijving van gearchiveerde websites binnen Liberas/Liberaal Archief werd gekozen voor een mapping van de OCLC-richtlijnen met toevoeging van een aantal technische metadata naar archiefstandaard ISAD(G). Dublin Core was ook een mogelijkheid die zeer nauw aansluit bij de OCLC-richtlijnen (cfr. tabel 1 hieronder), maar deze biedt minder beschrijvingsmogelijkheden dan ISAD(G). De uitgebreide versie van Dublin Core (Qualified Dublin Core) biedt wel meer mogelijkheden, en is conceptueel ook logischer dan ISAD(G), maar deze Qualified Dublin Core was niet beschikbaar in Adlib en Atlantis. De keuze voor ISAD(G) werd dus vooral bepaald door de relatieve flexibiliteit van deze standaard, het feit dat hij beschikbaar is in het gebruikte software pakket (Atlantis), en het feit dat deze binnen de organisatie ook gebruikt wordt voor andere collectiestukken.

Een ander voordeel van ISAD(G) is dat er gemakkelijk hiërarchisch kan gewerkt worden, wat toch wel nodig is bij het beschrijven van websites. Eenzelfde website zal nu eenmaal meerdere keren geharvest worden, dit kan bijvoorbeeld jaarlijks gebeuren, of naar aanleiding van specifieke aangelegenheden (verkiezingen, schandalen,…). We kunnen hierin structuur brengen door te werken met een algemene verzamelbeschrijving, en vervolgens per harvest een deelbeschrijving.

OCLC richtlijnen ISAD(G)
Collector

Definitie OCLC: The organization responsible for curation and stewardship of an archived website or collection

Instellingsnaam
Title

Definitie OCLC: The name by which an archived website or collection is known Collector

In OCLC wordt er een onderscheid gemaakt tussen Description en Title. Dit onderscheid heeft te maken met de bibliografische interpretatie van een website als zijnde een publicatie met een duidelijke titel. In de praktijk hebben veel websites echter geen duidelijke titel, vandaar dat bij de mapping van OCLC naar ISAD(G) de OCLC-elementen Description en Title een deels andere invulling hebben gekregen.

Titel

het ISAD(G) titel-veld begint net als bij een traditionele archiefbeschrijving met een redactionele vorm (snapshot van een website), gevolgd door de URL en crawl datum. Op die manier wordt het OCLC-element URL hier ook in verwerkt.

Date

Definitie OCLC: A single date or span of dates associated with an event in the lifecycle of an archived website or collection Collector

Het OCLC ‘date’ veld kan zeer ruim worden geïnterpreteerd. Een eerste plan was het uitvoeren van een DROID-analyse om te weten te komen op welke datum het eerste bestand op de website online was geplaatst. We hebben dit uiteindelijk toch niet gedaan aangezien de crawl datum belangrijker is om de context aan te geven van het harvesten. Indien onderzoekers in groter detail wensen na te gaan wanneer bestanden op de website online zijn geplaatst kunnen ze een DROID-analyse aanvragen of zelf ter plekke uitvoeren.

Datering (vrije tekst); datering (van); datering (tot)
Extent

Definitie OCLC: An indication of the size of an archived website or collection

Omvang
Creator

Definitie OCLC: An organization or person principally responsible for creating the intellectual content of an archived website or collection

Het OCLC-element creator is ruimer dan het ISAD-element archiefvormer. Het creator-element kan volgens de OCLC-richtlijnen zowel voor de website-eigenaar, als voor de websitemaker gebruikt worden. Wij hebben gekozen voor de beperktere interpretatie en kiezen voor het traditionele archiefvormer-begrip.

Archiefvormer
Relation

Definitie OCLC: Used to express part/whole relationships between a single archived website and any collection to which it belongs

Beschrijvingseenheid op bovenliggend/onderliggend niveau: is deel van / heeft als deel
Contributor

Definitie OCLC: An organization or person secondarily responsible for the content of an archived website or collection

/
Description

Definitie OCLC: One or more notes explaining the content, context and other aspects of an archived website or collection

In ISAD(G) is er geen apart veld vergelijkbaar met het OCLC-element Description, aangezien het titel-veld in ISAD(G) normaal gezien de plaats is waar de traditionele archiefbeschrijving komt. We hebben daarom gekozen om de OCLC-invulling van Description te plaatsen onder ‘bereik en inhoud’.

Bereik en inhoud
Subject

Definitie OCLC: Primary topic(s) describing the content of an archived website or collection

Onderwerpstrefwoord – Soort Naam / Soort Onderwerp
Genre/ Form

Definitie OCLC: A term specifying the type of content in an archived website or collection

Onderwerpstrefwoord – Soort Onderwerp
Rights

Definitie OCLC: Statements of legal rights and permissions granted by intellectual property law or other legal agreements

Voorwaarden voor raadpleging / voorwaarden voor gebruik
Language

Definitie OCLC: The language(s) of the archived content, including visual and audio resources with language components

Taal
URL

Definitie OCLC: Internet address for an archived website or collection

De URL wordt verwerkt in het titelveld van ISAD(G)
Source of description

Definitie OCLC: Information about the gathering or creation of the metadata itself, such as sources of data or the date on which source data was obtained

De crawl-datum  wordt verwerkt in het titelveld van ISAD(G). De gebruikte software wordt dan weer opgenomen onder ‘fysieke kenmerken en technische vereisten’

Een voorbeeld van een invulboek voor registratie van websites op niveau van het individuele snapshot (deelbeschrijving) en de website (verzamelbeschrijving) in registratieprogramma Adlib vind je hier: Bestand:Snapshot en websitebeschrijving ISAD.xlsx

Het toegankelijk maken van websites: juridische implicaties van het auteursrecht en de GDPR/AVG

Het archiveren van websites is – net als het archiveren van andere bronnen – onderhevig aan Europese en Belgische wetgeving. Hoewel websites niet fundamenteel verschillen met andere materialen, heeft zowel het archiveren van born-digital bronnen als het online ter beschikking stellen van gedigitaliseerde bronnen specifieke legale implicaties. De meest relevante wetgeving heeft betrekking op gegevensbescherming enerzijds, en bescherming van intellectuele eigendom (copyright) anderzijds.

Relevante (wet)teksten

Wet op gegevensbescherming

Europees niveau

  • General Data Protection Regulation
  • European Archives Group guidelines (! geen goedgekeurde code of conduct)

Belgisch niveau

  • Wet verwerking van persoonsgegevens (30 juli 2018)
  • Website Gegevensbeschermingsauthoriteit GBA
  • GDPR stelt voor om met goedgekeurde (nationale/sectorale) codes of conduct te werken (Art 40) [maar die is er nog niet]

Auteursrecht

Internationaal niveau

  • TRIPS

Europees niveau

  • InfoSoc directive
  • Directive on Copyright in the Digital Single Market [goedgekeurd in 2019, nationale wetgeving verwacht tegen 2021]

Belgisch niveau

  • Auteursrecht

Artikels

  • Hänger, A. 2018. ‘The consequences of the GDPR for archives and their users: an initial review’. In: K. Van Honacker (ed.) The right to be forgotten vs the right to remember, pp. 59-68. VUB Press, Brussel.
  • Thouvenin, F.; Reutimann, K. 2018. 'Web archives: A legal perspective.' In: K. Van Honacker (ed.). The right to be forgotten vs the right to remember, pp. 111-142. VUB Press, Brussel.

Archieven en websites

In artikel 22 van de Belgische auteurswet is vastgelegd dat archiefinstellingen een beperkt aantal kopieën mogen maken, op voorwaarde dat ze geen commerciële of winstgevende doeleinden hebben met het gebruik ervan, en dat de auteur altijd toegang kan vragen tot de kopieën. De Algemene Verordening Gegevensbescherming laat dit ook toe op voorwaarde dat de archiveer-activiteit gebeurt in het algemeen belang, en er nagedacht wordt over de bescherming van de rechten van alle mogelijke data-subjecten.

Deze uitzonderingsregel die in verband met archiveren in de auteurswet is opgenomen heeft echter enkel betrekking met de actie van kopiëren en bewaren. Wanneer we verder lezen leren we dat de gearchiveerde websites enkel intra muros (bvb. op terminals in de leeszaal) voor onderzoek of privéstudie beschikbaar gesteld wordt voor individuele leden van het publiek [Art 22/9]. Volgens de Algemene Verordening Gegevensbescherming mag het intra muros delen van niet-gepseudonimiseerde data ook op voorwaarde dat deze persoonsgegevens openbaar gemaakt waren en relevant zijn voor historische gebeurtenissen/publieke personen.

(Vrije) toegang tot gearchiveerde websites

Dit resulteert uiteraard in een vrij beperkte toegang van geïnteresseerde bezoekers en onderzoekers tot het gearchiveerde materiaal. In het geval van websites is het ook best contra-intuïtief: het gaat hier over materiaal dat nog niet zo lang geleden vrij, zonder log-in of kostprijs, toegankelijk is geweest, en dat in sommige gevallen via andere, meestal niet-Europese webarchiveringsinitiatieven (zoals archive.org in de VS) ook nu nog vrij toegankelijk online te vinden is. Binnen het huidige wetgevende kader (hoofdzakelijk bepaald door het auteursrecht, maar ook door portretrecht en wet op de bescherming van persoonsgegevens) lijken er momenteel geen praktisch werkbare mogelijkheden te bestaan om gearchiveerde websites vrij toegankelijk te stellen binnen de EU/België.

Dat wil niet zeggen dat dit niet hier en daar gebeurt. Sommige archieven werken met een take-down policy voor websites, waarbij de gearchiveerde websites volledig vrij toegankelijk online geplaatst worden en enkel in geval van klachten offline gehaald worden (cf. werkwijze internet archive). Een aantal webarchiveringsprojecten stuurden vooraf een bericht naar de organisaties achter te harvesten websites om hen toe te laten bezwaar aan te tekenen (opt-out policy). Wanneer er geen reactie kwam werd dan overgegaan tot archivering. Zowel de take-down als de opt-out aanpak blijken echter niet rechtsgeldig in België.

In theorie kan een gearchiveerde website vrij toegankelijk online geplaatst worden mits er toestemming verkregen is van de rechthebbende auteur(s) van de website. Helaas is het verkrijgen van deze rechten in vele gevallen nagenoeg onmogelijk complex. Enkel toestemming hebben van de website-eigenaar is namelijk in de meeste gevallen onvoldoende. Een website bestaat uit een veelheid aan bestanden (teksten, foto’s, filmpjes), en op elk van deze bestanden kan het auteursrecht, portretrecht, én het recht op gegevensbescherming van toepassing zijn. Ook de gebruikte software kan beschermd zijn.  In afwachting van duidelijkere richtlijnen is er gekozen om de websites momenteel enkel intra-muros toegankelijk te stellen, en in de inventaris de rightsststatementunknown rightsholder’op te nemen[4].

Het heden en de toekomst

De huidige wetgeving besteedt geen specifieke aandacht aan de legale situatie van born-digital bronnen in archieven. De afwezigheid van rechtspraak (onder andere i.v.m. de implementatie van de GDPR) zorgt ook voor enige onduidelijkheid. Daarbij komt dat een aantal Europese richtlijnen nog niet in nationale wetgeving zijn gegoten. In afwachting van meer duidelijkheid en rechtspraak is het voor archieven die websites (of sociale media) binnenhalen en bewaren aangewezen om zelf een formele procedure uit te werken die aangeeft dat de archiefinstelling naar beste vermogen heeft stilgestaan bij eventuele rechten en gegevensbescherming. Om het bewaren en toegankelijk maken van born-digital archieven juridisch te omkaderen kunnen een aantal standaard documenten worden opgesteld (een soort eigen, voorlopige, code of conduct), waarin het bestaan van de bewaarde born-digital archieven wordt verantwoord, er wordt beargumenteerd waarom het niet mogelijk is alle data-subjects te informeren over het archiveren van hun data, en de voorwaarden voor toegang tot de collectie worden toegelicht.Hiermee kan in geval van klachten tenminste aangetoond worden dat er doordacht en met respect voor de huidige wetgeving gearchiveerd werd.

Powerpoints studiedag website-archivering

Referenties

  1. Jackie Dooley and Kate Bowers. Descriptive Metadata for Web Archiving. Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group.
  2. Jessica Venlet, Karen Stoll Farrell, Tammy Kim, Allison Jai O’Dell and Jackie Dooley. Descriptive Metadata for Web Archiving. Literature Review of User Needs.
  3. Niels Brügger (2018), The Archived Web. Scholarly use of the archived web, pp. 119-137
  4. https://rightsstatements.org/en/