Onderzoek stelt dat AI nog niet klaar is om kantoorwerknemers te vervangen

Hoewel we AI in verschillende professionele sectoren al inzetten, blijkt uit een nieuwe test dat kunstmatige intelligentie nog niet helemaal klaar is om complete werknemers op kantoor te vervangen. Mensen kunnen namelijk informatie uit verschillende domeinen combineren en er context aan geven – iets waar AI nog moeite mee heeft.

De laatste jaren is AI dé term die te pas en te onpas voorbijkomt. Techbedrijven zetten er dik op in en zien het als de huidige heilige graal, en ook in het dagelijks leven zetten we kunstmatige intelligentie steeds vaker in om ons bij te staan – ook op de werkvloer. Toch lijken mensen die regulier kantoorwerk doen – denk aan advocaten, IT en investeerders – nog niet bang te hoeven zijn dat ze binnenkort vervangen worden door AI.

APEX-Agents

TechCrunch schrijft over een nieuw onderzoek van trainingsdatabedrijf Mercor waarin de populaire AI-modellen aan de tand worden gevoeld voor dergelijk werk. Daaruit is een nieuwe benchmarktest genaamd APEX-Agents voortgekomen, waarmee getest wordt of AI kantoorwerk kan uitvoeren in sectoren als investeringsbanken, consultancy en de juridische praktijk. Het gaat daarbij om complexe vragen die kennis over meerdere zaken vereisen.

Wat blijkt: zelfs de best presterende AI-modellen wisten minder dan een kwart van de vragen correct te beantwoorden. Geen van de modellen kwam dan ook met een voldoende door de test. Vaker wel dan niet werd er een fout antwoord – of zelfs helemaal geen antwoord – gegeven. De vragen in de test werden samengesteld door echte professionals die actief zijn op Mercors platforms. Zij bepaalden zowel de vragen als de correcte antwoorden.

Combineren van informatie

Het grootste struikelblok ligt bij iets dat voor mensen natuurlijk is, maar voor AI vooralsnog niet: het combineren van informatie uit meerdere domeinen. “We hebben voor de benchmark de complete omgeving uitgebouwd, gemodelleerd naar echte professionele services”, aldus Mercor-CEO Brendan Foody.

“We krijgen tijdens ons werk niet alle context van één individu. In het echte leven werk je via Slack, Google Drive en allerlei andere tools.” Blijkbaar is het voor veel AI-modellen nog teveel gevraagd om conclusies te trekken gebaseerd op kennis en werk uit meerdere domeinen.

Gemini 3 Flash blijkt het best presterende AI-model in de benchmarktest met 24% aan correcte antwoorden, gevolgd door GPT-5.2 met 23%. Daarna volgen Opus 4.5, Gemini 3 Pro en GPT-5 met ongeveer 18% aan goede antwoorden.

Verbeteringen komen snel

Overigens zijn de resultaten van de test geen garantie voor de toekomst. Zoals Foody terecht opmerkt, vinden verbeteringen binnen AI-modellen in een razendsnel tempo plaats. “Op dit moment kunnen we deze AI-modellen als een stagiair zien die het een kwart van de keren bij het juiste eind heeft, maar vorig jaar hadden ze het nog maar 5 of 10% van de keren bij het juiste eind. Dergelijke jaarlijkse verbeteringen kunnen snel een impact hebben.”

Kantoorwerknemers lijken nu dan ook nog veilig te zijn – ze zullen nog niet vervangen kunnen worden door AI-modellen, juist omdat ze als mens context kunnen geven aan informatie verspreid over meerdere bronnen. Nu de APEX-Agents-benchmarktest echter publiekelijk is gemaakt, is het een kwestie van tijd voor AI-bedrijven hun modellen er op gaan trainen en er spoedig nog meer grote stappen gemaakt gaan worden.