archief

De Wayback Machine wordt steeds incompleter

Online14 apr , 12:13doorMichel Musters
De Wayback Machine van Internet Archive is al jaren een handige website om oude versies van websites – inclusief de verschenen content op die sites – terug te vinden. Maar steeds meer publicaties blokkeren de Wayback Machine, waardoor dit waardevolle overzicht steeds incompleter wordt.
Mocht je er in al die jaren internetgebruik niet mee kennis hebben gemaakt: de Wayback Machine is een gratis digitaal archief van het internet, dat wordt bijgehouden door non-profitorganisatie Internet Archive. Met regelmaat worden ‘snapshots’ van websites gemaakt, zodat je als het ware terug in de tijd kunt gaan en oude versies van websites kunt bekijken en de artikelen die toen online stonden kunt lezen. Het is een zeer handige tool die ook nog eens belangrijk is voor het behoud van digitale content.

Blokkade van crawlbot

Nu blijkt dat de Wayback Machine steeds minder goed wordt in het bijhouden van content – en volgens Wayback Machine-baas Mark Graham ligt dat niet aan de organisatie zelf. In een artikel van Wired meldt Graham dat diverse grote mediabedrijven namelijk zelf voor deze blokkade zorgen. Ze zouden daarvoor ia_archiverbot blokkeren, een web crawler die vooral door Internet Archive gebruikt wordt om de Wayback Machine up-to-date te houden.
Graham meldt dat USA Today Co., een groot mediaconcern dat meer dan tweehonderd websites en bladen in handen heeft, een van de bedrijven is die de crawler blokkeert. Uit een analyse van Originality AI die Wired aanhaalt blijkt dat 23 grote nieuwssites de hierboven genoemde bot tegenhouden, waaronder The New York Times. Ook socialmediaplatform Reddit maakt zich hier schuldig aan. Andere websites, zoals The Guardian, gebruiken andere manieren om het lastiger te maken voor mensen om oude content via de Wayback Machine te bekijken.

Probleem voor journalisten

Eén van de doelgroepen van de Wayback Machine die veel problemen ondervinden aan de nieuwe trend, zijn journalisten. Zij maken regelmatig gebruik van het archief om (oude) bronnen te vinden, maar dat wordt op deze manier steeds moeilijker. Zeker in een tijd waarin fysieke kranten bij bosjes neervallen en de archieven van papieren media in bibliotheken als gevolg daarvan zeer incompleet zijn, is de Wayback Machine waardevoller dan ooit.
Organisaties als Fight for the Future en Electronic Frontier Foundation proberen zich hier dan ook tegen te verzetten. Ze hebben meer dan honderd handtekeningen opgehaald van journalisten die de waarde van het archief benadrukken. Zij betuigen hun steun richting Internet Archive, maar een heldere oplossing is er vooralsnog niet.

De media versus AI

De diverse mediabedrijven die hierover aan de tand gevoeld zijn claimen echter in hun recht te staan. USA Today meldt dat hun maatregelen niet specifiek op de Wayback Machine gericht zijn, maar op bots die hun website ‘scrapen’ an sich. Een woordvoerder van New York Times meldt dat AI-modellen de Wayback Machine-data gebruiken om zichzelf te trainen, en dat ze dit tegen willen gaan. Reddit uit vergelijkbare zorgen.
safer internet day
Het is niet helemaal duidelijk of de bedrijven AI als excuus gebruiken om de Wayback Machine te blokkeren, maar duidelijk is wel dat de strijd tussen traditionele mediabedrijven en AI-bots meer dan ooit tevoren leeft. Meer dan honderd rechtszaken in de VS richten zich op de kwestie dat AI-modellen gebruikmaken van artikelen waar auteursrecht op ligt. De Wayback Machine bevat dan ook enorm veel waardevolle data voor AI-trainingsdoeleinden.
Het lijkt er dus op dat de Wayback Machine onbedoeld slachtoffer is geworden van de strijd tussen AI en de media. Een vergelijkbaar online archief is er niet – de Wayback Machine bestaat meer dan dertig jaar en heeft meer dan een biljoen webpagina’s gearchiveerd. Graham geeft in ieder geval aan dat hij nog niet opgeeft, en dat hij gesprekken houdt met sommige uitgevers om de blokkade mogelijk op te heffen in de toekomst. Toch is de situatie prangend – of zoals Graham aangeeft: “Er is geen twijfel over mogelijk dat het blokkeren van steeds meer van het publieke web impact heeft op de mogelijkheid dat de samenleving een goed beeld krijgt van wat er gaande is in de wereld.”
Deel dit bericht

Loading