Is ze niet aan het tikken, dan reist ze rond in de wondere wereld van entertainment of op een toffe plek in de echte wereld. Mario is de man van haar leven, Belle is haar beste vriendin en haar laptop is nooit ver weg.
We weten dat ChatGPT niet helemaal van zichzelf zo slim is: het moet zijn informatie ook ergens vandaan halen. Daar is maker OpenAI dan weer wat minder open over, maar dat wil niet zeggen dat het niet toch enigszins te achterhalen valt, zo blijkt uit informatie van de Washington Post.
Dataset van AI
Er wordt vaak gedacht dat chatbots denken als mensen, maar dat is niet helemaal waar. Ze kunnen vooral informatie verwerken en dingen nabootsen. Dat merk je ook aan ChatGPT, want als je iets aan hem vraagt, dan weet je dat hij het niet zelf bedenkt: hij haalt het uit allerlei bronnen op het internet. De krant heeft de dataset van Google C4 bestudeerd en kon daardoor inkijk krijgen in de ongeveer 15 miljoen websites die er werden gebruikt om de Engelstalige AI alleen al te helpen aan zijn informatie. Welke dataset OpenAI gebruikt is echter onbekend.
Eenderde van de websites van de dataset van C4 blijkt niet meer online te zijn, maar de overige 10 miljoen wel. Het zijn journalistieke websites, websites over software-ontwikkeling, de medische wereld, entertainment en contentcreatie. De grootste websites zijn patent.google.com, wikipedia.org (ja, echt) en scribd.com. Andere hooggerankte websites zijn onder andere een pagina over piraterij, World of Warcraft en burnouts.
Wikipedia en WordPress
Nu is dat nog niet eens tot daaraan toe: er staan meer dan 200 miljoen meldingen van websites binnen C4 waarin een copyright-symbool op de pagina staat. Oftewel; dat mag je niet kopiëren en dus ook niet voor een dataset gebruiken. Er zitten in de dataset ook heel veel persoonlijke blogs: maar liefst een half miljoen, waaronder WordPress-sites, Tumblr, Blogspot en Live Journal.
Er is ook een bloklijst bij Google, zodat er niet allemaal scheldwoorden doorheen komen en discriminatie zoveel mogelijk wordt geëlimineerd. Hetzelfde geldt voor pornografie en hakenkruizen. Dat is natuurlijk alleen de dataset van Google: andere bedrijven hebben weer andere regels. Die van OpenAI GPT-3, de ChatGPT-taal voor de huidige, was 40 keer zo groot en maakte ook onder andere gebruik van Wikipedia.
Open over AI
Mocht je het trouwens flauw vinden dat OpenAI hier verder niet zo open over is: veel bedrijven willen hun trainingsdata niet vrijgeven omdat het wil voorkomen dat persoonlijke data op straat komt te liggen, of uiteraard content die wordt gebruikt zonder dat hiervoor toestemming wordt gevraagd, iets wat veelal voorkomt.
Het zal nog lange tijd een vage wereld blijven, die van de datasets van AI-chatbots. Tenzij de overheid komt met wet- en regelgeving hieromtrent, wat op zich op de loer ligt nu steeds meer mensen (waaronder kunstenaars) rechtszaken aanspannen tegen het onrechtmatig gebruik van hun creaties voor het trainen van deze slimme hulpjes.
Verder lezen over ChatGPT
Online13.12.2024
ChatGPT heeft nu een kerstmannenmodus om mee te praten
Video09.12.2024
Videotool Sora van OpenAI is nu officieel beschikbaar
Online06.12.2024
OpenAI speelt voor kerstman: elke dag een nieuwe AI-mogelijkheid
Online03.12.2024
Waarom sommige namen zorgen dat ChatGPT crasht
Video27.11.2024
Langverwachte OpenAI-videotool Sora is nu online: niet door OpenAI
Technology25.11.2024
Apple werkt aan LLM Siri: Een revolutionaire stap in spraakassistentie
Technology20.11.2024
ClimateGPT: De volgende stap in klimaatonderzoek?
Online19.11.2024
Komt er een moment waarop AI niet meer kan verbeteren?
Verder lezen over Google
Technology11.12.2024
Google introduceert kwantumcomputer: ‘Parallelle universa bestaan’
Search10.12.2024
Trending: dit zochten we meer dan ooit op Google in 2024
Search06.12.2024
Google: Google Zoeken gaat volledig veranderen volgend jaar
Online05.12.2024
Google wil ook AI-video’s maken net als OpenAI Sora
Technology05.12.2024
DeepMind introduceert GenCast: AI-Revolutie in weersvoorspellingen
Search03.12.2024
Wat kunnen we verwachten van Google’s ‘Year in Search 2024’?
DC Business02.12.2024
Laat je website groeien met backlinks: zo pak je dat aan
Online28.11.2024
Google Chat wil meer op het populaire Slack lijken
Verder lezen over Kunstmatige Intelligentie
Online13.12.2024
ChatGPT heeft nu een kerstmannenmodus om mee te praten
Technology13.12.2024
10 voorspellingen voor 2025 van SAP: het is vooral AI dat de klok slaat
Advertising11.12.2024
AI-bedrijf adverteert in San Francisco: ‘Neem geen mensen meer aan’
Technology10.12.2024
Sora de toekomst van AI-videocreatie
Een baanbrekende introductieAutomotive10.12.2024
DS Automobiles ontvangt award voor ChatGPT-integratie
Video09.12.2024
Videotool Sora van OpenAI is nu officieel beschikbaar
Entertainment09.12.2024
Nieuwe AI Kersthit: ‘Christmas With You There’
Search06.12.2024
Google: Google Zoeken gaat volledig veranderen volgend jaar
Verder lezen over Onderzoek
Online11.12.2024
Zo ziet ‘de wetenschappelijke methode’ van onze wolvendeskundigen eruit
Cybercrime29.10.2024
25% van de Nederlandse bedrijven is niet goed voorbereid op cyberdreiging
Online28.10.2024
Hoe valt het ontstaan van eilandbogen of vulkaanbogen te verklaren?
Marketing01.10.2024
Online marketingcampagnes vooral effectief voor nieuwe klanten
Nieuws17.09.2024
Gecombineerde NIVEL- en CBS-gegevens COVID-19-pandemie zijn prima te verklaren!
Social Media04.09.2024
“Trap Er Niet Influencer” doet onderzoek naar effecten van social media
Nieuws21.08.2024
De stollingsgesteenten cyclus op aarde
Artificial Intelligence14.08.2024