Det finnes flere verktøy som kan gjøre dette, men basert på tidligere erfaringer med andre innhøstere og teknologi, og for å sikre kvaliteten på materialet har Nasjonalbiblioteket valgt å utvikle en innhøster selv.
Det offisielle navnet på Nasjonalbibliotekets innhøstingverktøy er «Veidemann» som betyr fangstmann/jeger.
Veidemann
Veidemann bruker en spesiell utgave av nettleseren Chrome til å gjengi nettstedene. Dersom nettstedet ikke støtter denne nettleseren, kan vi ikke garantere at det høstede materialet blir som forventet.
Nettleseren blir fjernstyrt av en robot som har kontroll på hvilke nettsteder som skal høstes, hvor ofte, hvor dypt og en rekke andre parametre som sørger for at vi ikke overbelaster nettstedene.
Når Veidemann har høstet et nettsted, vil innholdet på nettstedet bli lagret trygt på våre servere i warc-formatet.
User-Agent
Når en nettleser, innhøster eller robot besøker en nettside, sender de informasjon om hvilken nettleser den er og hvilken plattform den kjører på. Det er nettleserens måte å identifisere seg på, og kan blant annet brukes av nettsteder til å vise tilpassede sider til forskjellige nettlesere.
Veidemann bruker følgende User-Agent: «nlnbot/0.1 (+https://www.nb.no/nettarkivet) «
Robots.txt
Robots.txt brukes av nettstedseiere for å gi instruksjoner til hvordan de ønsker at innhøstere og andre roboter på nettet skal forholde seg til deres nettsted. Instruksjonene kan eksempelvis gjelde hvor ofte innhøstere får lov å klikke på lenker, ekskludere deler av nettstedet, eller om roboten skal utestenges.
Nasjonalbiblioteket forholder seg i hovedsak til instruksjonene nettstedseier har satt i robots.txt, men i noen særtilfeller kan det ignoreres.
Sitemap
Nettarkivet høster inn det som er allment tilgjengelig på nett. Det vil si at vi høster det nettleseren viser fram på et nettsted. Vi høster ikke databaser og det er begrenset støtte for dynamiske nettsteder. Det bør derfor finnes en lenke med peker til alle ressurser det er forventet at vi skal høste. Dersom det ikke finnes en lenke til ressurser er det ikke sannsynlig at vår innhøster vil finne det. De store søkemotorene (eksempelvis Google) har lagd teknikker som gjør det mulig for nettsteds-eiere å publisere lenker til alle ressurser, via et såkalt sitemap.
Alle ressurser på et slikt nettstedskart vil bli forsøkt høstet av vår innhøster, men det er viktig at innhøsteren finner en lenke til dette nettstedskartet.
Eventuelt kan en lenke til dette kartet sendes til Nasjonalbiblioteket og vi kan høste denne spesifikt.
Et sitemap gir heller ingen garanti for at nettstedet blir høstet, men gir et hint til vår innhøster slik at den vet om ressursene.
Flere detaljer
Les vår dokumentasjon på GitHub.