Webpagina's inventariseren

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken

betwer webpublicaties ipv websites

doel

Alle webpublicaties van een bepaalde organisatie of persoon, plaats of onderwerp verzamelen binnen een bepaalde periode.

Centrale vraag die de inventaris moet beantwoorden: wat heeft iemand over iets op een bepaald moment op het web gezet? Ongeacht of dit via een website, blog, sociaal netwerk is. Het zoekresultaat moet een reeks links naar webpublicaties zijn. Als die webpublicaties niet meer online staan, is het zaak dat uit een digital repository worden gevist. Hoe die publicaties in een repository bewaren is onderwerp van de andere richtlijn.

    • ontwikkel een goeie zoekstrategie > welke elementen moeten in de zoekstrategie zitten
    • documenteer de zoekstrategie bij de resultaten > in welk formaat moet het archief en de metadat bewaard worden
    • beschrijving van het webarchief > standaarden voor metadata over webresources
    • hoe inventariseer je dynamische content van een webpublicatie.
    • maak je de inventaris van je webpublicaties doorzoekbaar?
    • hoe inventariseer je de ontwikkeling in de tijd van een publicatie?

zoekstrategieen:

  • depth/breadt first-popularity ranks-topical crawling

zie liwa-arcomem apache nutch heritrix UK web archive portugeuese web archive padicat


guessing linkes extract paramaets from the program code execute of javascript> simultae user activities

crawl strategies 1. depth-first (sequence of dives in to the depth of the page hierarchy) 2. breadth first (level by level lower in the hierarchy 3. select pages by popularity (obv pagerank 4. cntent based selection

topical crawling

focussed on events and rarely around entities based on the intention of the researcher pagen rank and smantics for prioritizin pages

resultaat: collectie pagina's van een domein over een bepaald onderwerp