Publicatie:Internet Archive

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Samenvatting

Internet Archive is een digitale bibliotheek met als doel universele toegang te bieden tot alle menselijke kennis. Ze werd in 1996 in het leven geroepen door de gelijknamige non- profitorganisatie uit San Francisco (Verenigde Staten), en speelt een belangrijke rol in het bewaren en ontsluiten van digitaal erfgoed. De website, archive.org, omvat 4,5 miljoen foto’s, 35 miljoen boeken, 8,5 miljoen films, videos en tv-series, 894.000 software-items en ook meer dan 734 miljard gearchiveerde webpagina’s.


Referentie
Titel Internet Archive (Voorkeurstitel)
Locatie META nummer 2022/8
Uitgever
Jaar van uitgave 2022
Rechten CC-BY-SA
Persistent ID


Auteur

Lode Scheers (meemoo, Vlaams instituut voor het archief)

Digitale bibliotheek

Op archive.org kun je boeken lenen. Ze zijn vaak beschikbaar in blokken van een uur en per uur verlengbaar. Als je tegen het einde van het toegewezen uur het boek nog aan het lezen bent en er staat niemand op de wachtlijst, dan wordt het automatisch verlengd. Sommige boeken kunnen twee weken geleend worden. Als er geen kopieën beschikbaar zijn, kom je op de wachtlijst terecht.

Sinds 2019 werden op Wikipedia 130.000 referenties naar citaten uit boeken omgezet in hyperlinks naar gedigitaliseerde versies op archive.org. Wanneer de bronvermelding op Wikipedia verwijst naar een specifiek paginanummer worden de gebruikers doorverwezen naar een preview van twee pagina’s op archive.org. Alle gedigitaliseerde boeken op de website zijn te lezen in een webbrowser. Je kunt dus ook zelf linken naar boeken om je citaten raadpleegbaar te maken voor je lezers.

Archiefinstellingen, bibliotheken en documentatiecentra kunnen ook zelf boeken, audio- en videobestanden waarvan de rechtenstatus toestaat dat ze die delen, opladen op archive.org. Internet Archive biedt zowel gratis opslag als toegang tot materiaal aan.

Teletijdmachine

JMortonPhoto.com & OtoGodfrey.com, Back to the Future DeLorean Time Machine, via Wikimedia Commons, Creative Commons Attribution-Share Alike 4.0.

De grootste drijfveer achter het webarchief is de Wayback Machine, een zoekportaal dat toegang geeft tot gearchiveerde webpagina’s. Indien de door jou gezochte webpagina gearchiveerd is, levert je zoekopdracht een kalender op met een overzicht van beschikbare snapshots van de webpagina en wanneer die gemaakt zijn.

tisch websites archiveert en gebruikers de mogelijkheid biedt om manueel websites aan het archief toe te voegen via de Save Page Now-functie. Zo kun je zonder veel voorkennis een website laten archiveren. De gearchiveerde websites worden opgeslagen in het WARC-formaat (zie de Uitgepakt-rubriek in META 2022/7). Een tijdstempel van de datum van captatie wordt gebruikt als uniform resource identifier (URI), gevolgd door het originele adres van de webpagina. Je moet wel zelf via de Wayback Machine controleren of de website al gearchiveerd is. Een website archiveren was nog nooit zo gemakkelijk!

Internet Archive vs linkrot

Linkrot is het fenomeen waarbij hyperlinks naar externe bronnen na een tijd niet meer werken. Dat gebeurt wanneer een website offline gaat, maar ook wanneer een webadres wijzigt door bijvoorbeeld contentmigraties. Als je zelf een website onderhoudt waarin je linkt naar externe bronnen, kun je linkrot vermijden door te refereren naar gearchiveerde versies van de webpagina’s op archive.org. Zo vermijd je dat gebruikers op een Page Not Found-pagina terechtkomen.

In samenwerking met vrijwilligers van de Wikipedia-gemeenschap werd software ontwikkeld die automatisch kapotte links in de referentielijsten vervangt door links naar de gearchiveerde versie van de webpagina’s op archive.org. De afgelopen jaren werden op automatische wijze al een hele reeks websites gearchiveerd op basis van de links in referentielijsten op Wikipedia-pagina’s. De functionaliteit is ook beschikbaar voor niet-Engelstalige pagina’s.