Ron verdiende zijn sporen in de Telecom als Mobile Cowboy. Na bijna 15 jaar was hij toe aan een nieuwe uitdaging als zelfstandig freelance journalist, blogger en tekstschrijver. Het bloed kruipt echter waar het niet gaan kan. De Mobile Cowboys is back! Met lasso en zweep in de aanslag om de ingeslapen telecommarkt weer eens goed wakker te schudden en met scherp te schieten!
ChatGPT, Bard en andere generatieve AI-chatbots zijn voor een groot deel afhankelijk van input die zowel handmatig als automatisch in hun ‘systemen’ gepompt wordt. Allemaal content die ze nodig hebben als training zodat ze zelf weer goede antwoorden, en content, kunnen leveren. Een groot deel van de ‘training’ gebeurt automatisch. De chatbots zuigen, simpel gezegd, als het ware hele sites en databases leeg om zo alwetend mogelijk te worden. Over dat ‘content zuigen’ is de afgelopen maanden al wat commotie ontstaan, vooral over privacygevoelige gegevens en data die op deze manier op straat komt te liggen.
AI-training met NYT content verboden
Kranten en andere nieuwssites zijn natuurlijk een hele waardevolle bron van informatie voor het trainen van generatieve AI-tools. Welnu, de New York Times heeft onlangs haar voorwaarden aangepast. De krant verbiedt nu het gebruik van haar content om AI-tools mee te trainen. Het is niet de eerste keer dat de media actie onderneemt tegen het ‘zomaar leegzuigen’ en gebruik van hun content.
In de nieuwe voorwaarden staat dat die gelden voor alle content, tekst, foto’s, afbeeldingen, illustraties, ontwerpen, audioclips, videoclips, “look and feel” en metadata. Daarnaast mogen van de NYT webcrawlers pagina’s niet meer indexeren zodat LLM’s of AI-tools deze kunnen gebruiken om hun systemen te trainen.
De krant dreigt bij overtreding van de nieuwe voorwaarden met boetes. Al is het nog niet duidelijk hoe ze overtredingen gaan opsporen. Webcrawlers, ook die van zoekmachines, indexeren pagina’s, maar daarmee kun je niet zien of dat voor een zoekmachine is, of voor het trainen van een AI-tool of LLM aan de hand van de content van de geïndexeerde pagina.
Chatbot bedrijven terughoudend
Hoe de verschillende chatbots van Google en OpenAI getraind worden, daar doen de bedrijven nogal geheimzinnig over. Ze willen natuurlijk, en begrijpelijk, niet te diep in hun keuken laten kijken.
Uit onderzoek van onder andere The Washington Post, is gebleken dat Google voor het trainen haar kleinere versie van de CommomCrawl dataset de inhoud van 15 miljoen websites gebruikt. Daar zit ook de New York Times bij. Die crawler wordt gebruikt om LLM’s zoals Meta’s LLaMAa en Google’s T5 te trainen – een open-source taalmodel dat ontwikkelaars helpt bij het bouwen van software voor vertaaltaken.
Verder lezen over ChatGPT
Artificial Intelligence01.10.2024
OpenAI is van plan om ChatGPT steeds duurder te maken
Artificial Intelligence23.09.2024
iPhone-designer Jony Ive werkt met OpenAI aan nieuwe gadget
Artificial Intelligence13.09.2024
OpenAI lanceert zijn nieuwe software o1 die kan beredeneren
Artificial Intelligence04.09.2024
Oprah leidt een panel met belangrijke mensen in AI: de wereld is verbaasd
Artificial Intelligence30.08.2024
ChatGPT heeft wekelijks dubbel zoveel gebruikers
Marketing22.08.2024
HubSpot komt met gratis tool voor AI zoekoptimalisatie
Nieuws08.08.2024
Autoriteit Persoonsgegevens: gebruik AI-chatbot kan leiden tot datalek
Online05.08.2024
Geen watermerk voor ChatGPT om angst dat gebruikers weglopen
Verder lezen over Kranten
Media27.02.2023
Factcheck marathon van samenwerkende media
In aanloop naar de verkiezingen voor de Provinciale StatenOnline19.02.2023
Media klagen ChatGPT-maker aan vanwege trainingsmiddelen
Gaming01.02.2022
Wordle is nu een krantenpuzzel
New York Times neemt de populaire game over voor 'zeven cijfers'DC Business03.11.2021
All-Inn Verspreidingen op overname pad
Nieuws14.04.2021
De nacht van 14 op 15 april 1912 was de nacht van de Titanic
Het nieuws bereikte de wereld pas twee dagen laterNieuws16.02.2021
Vanaf 1922 staat er elke ochtend een strip in de krant
Media17.12.2020
Belgische krant De Morgen maakt uniek jaaroverzicht van 2020
De chaos van het afgelopen jaarNieuws14.02.2019