Als je onvriendelijk doet tegen ChatGPT, dan krijg je vaak als antwoord iets in de trant van: ‘Het klinkt alsof je ergens gefrustreerd over bent’ en de melding of je kan vertellen hoe en wat, zodat ChatGPT kan kijken of hij het goed kan maken. Anthropic’s AI-chatbot gaat daar anders mee om.
ChatGPT zegt op de vraag wat het doet als iemand maar naar blijft doen: “In principe blijf ik beschikbaar, zelfs als iemand onaardig of kwetsend is. Dat komt omdat mijn doel is om behulpzaam, geduldig en professioneel te blijven—ook als een gesprek moeilijk of negatief wordt. Maar: als iemand herhaaldelijk grensoverschrijdend of respectloos gedrag vertoont, kan ik een gesprek wel afronden of aangeven dat het zo niet werkt. Het draait dan niet om “straffen”, maar om duidelijkheid en wederzijds respect. Net zoals in echte gesprekken eigenlijk.”
Anthropics Claude is iets gevoeliger wat dat betreft. Dat stopt er helemaal mee als het niet normaal kan. Claude doet dat niet om jou te beschermen, maar om zichzelf te beschermen. Het wil hiermee zorgen dat het model dat achter Claude schuilgaat niet naar de filistijnen wordt geholpen. En dan draait het niet zozeer om feitelijke informatie, maar juist zijn emotionele welzijn. Mocht AI dus ooit een bewustzijn ontwikkelen, dan is de hoop dat het hierdoor dan geen schade aanricht. Anthropic zegt namelijk dat het niet zeker is over de morele status van Claude. En niet alleen heerst er onzekerheid over Claude, maar over alle grote taalmodellen.
Dat is nogal een statement. Het zegt dus eigenlijk dat het niet weet hoe AI zich gaat ontwikkelen. Als het toch ineens iets van een ‘geweten’ krijgt, dan wil Anthropic blijkbaar zorgen dat het zich minder snel tegen mensen keert. Het bedrijf zegt niets over het bewustzijn van Claude op dit moment. Ook wordt het volledig uitchecken uit gesprekken zeker niet de standaard: het moet een laatste redmiddel worden als het niet lukt om een gesprek de andere kant op te sturen.
Uiteindelijk doet Claude dus straks ongeveer wat ChatGPT ook zegt te doen, maar zal het waarschijnlijk eerder opgeven dan ChatGPT. Het gaat dan om Opus 4 en 4.1, niet om andere versies van Claude. Als een gebruiker alleen maar beledigend is of schadelijke dingen zegt, dan zal Claude dus eerst proberen om er nog iets van te maken, maar vervolgens stoppen.
Geen zorgen: het gaat dan niet zozeer om de AI uitschelden bijvoorbeeld, maar juist verzoeken die niet door de beugel kunnen. Denk aan dingen rondom kindermisbruik of terreurdaden. Mocht je de behoefte voelen om een keer iets geks tegen een AI-chatbot te zeggen, dat lijkt dat vooralsnog dus niet heel problematisch, maar als je richting illegale praktijken gaat, weet dan dat de AI je waarschijnlijk afkapt. En dat is weliswaar om zichzelf in bescherming te nemen, maar in het verlengde daarvan helpt het mogelijk ook jezelf in bescherming te nemen.