Chatbots komen slim over door deze verrassende sites

Dataset van AI

Er wordt vaak gedacht dat chatbots denken als mensen, maar dat is niet helemaal waar. Ze kunnen vooral informatie verwerken en dingen nabootsen. Dat merk je ook aan ChatGPT, want als je iets aan hem vraagt, dan weet je dat hij het niet zelf bedenkt: hij haalt het uit allerlei bronnen op het internet. De krant heeft de dataset van Google C4 bestudeerd en kon daardoor inkijk krijgen in de ongeveer 15 miljoen websites die er werden gebruikt om de Engelstalige AI alleen al te helpen aan zijn informatie. Welke dataset OpenAI gebruikt is echter onbekend.

Eenderde van de websites van de dataset van C4 blijkt niet meer online te zijn, maar de overige 10 miljoen wel. Het zijn journalistieke websites, websites over software-ontwikkeling, de medische wereld, entertainment en contentcreatie. De grootste websites zijn patent.google.com, wikipedia.org (ja, echt) en scribd.com. Andere hooggerankte websites zijn onder andere een pagina over piraterij, World of Warcraft en burnouts.

Wikipedia en Wordpress

Nu is dat nog niet eens tot daaraan toe: er staan meer dan 200 miljoen meldingen van websites binnen C4 waarin een copyright-symbool op de pagina staat. Oftewel; dat mag je niet kopiëren en dus ook niet voor een dataset gebruiken. Er zitten in de dataset ook heel veel persoonlijke blogs: maar liefst een half miljoen, waaronder WordPress-sites, Tumblr, Blogspot en Live Journal.

Er is ook een bloklijst bij Google, zodat er niet allemaal scheldwoorden doorheen komen en discriminatie zoveel mogelijk wordt geëlimineerd. Hetzelfde geldt voor pornografie en hakenkruizen. Dat is natuurlijk alleen de dataset van Google: andere bedrijven hebben weer andere regels. Die van OpenAI GPT-3, de ChatGPT-taal voor de huidige, was 40 keer zo groot en maakte ook onder andere gebruik van Wikipedia.

Open over AI

Mocht je het trouwens flauw vinden dat OpenAI hier verder niet zo open over is: veel bedrijven willen hun trainingsdata niet vrijgeven omdat het wil voorkomen dat persoonlijke data op straat komt te liggen, of uiteraard content die wordt gebruikt zonder dat hiervoor toestemming wordt gevraagd, iets wat veelal voorkomt.

Het zal nog lange tijd een vage wereld blijven, die van de datasets van AI-chatbots. Tenzij de overheid komt met wet- en regelgeving hieromtrent, wat op zich op de loer ligt nu steeds meer mensen (waaronder kunstenaars) rechtszaken aanspannen tegen het onrechtmatig gebruik van hun creaties voor het trainen van deze slimme hulpjes.

@emilymbender.bsky.social

@emilymbender

·Follow

But then it goes right off the rails. We don't actually know what the dataset behind ChatGPT is (OpenAI won't say). But even if "the entire Internet" were a well-defined thing and we knew that was the dataset, who would want that? Do you know what's on the internet? >>

Screencap: "Essentially, ChatGPT works by using the entire Internet as its data source. A person first asks a question. Because of deep learning on its massive dataset, ChatGPT can understand and generate human-like responses that are most likely to be a correct answer. That principle applies whether you’re asking ChatGPT to summarize a report, create a piece of software code or discuss the themes of Moby Dick."

1:43 PM · Apr 19, 2023

Read 2 replies

EITCI Institute

@EITCI

·Follow

Europe needs AI experts. The EITCA/AI Academy attests comprehensive AI & ML skills under the European IT Certification framework. It consists of 12 EITC Certificates including ML in Python, TensorFlow, Cloud AI and Deep Neural Networks. Learn more at: eitca.org/eitca-ai-artif…

7:14 PM · Mar 13, 2023

851