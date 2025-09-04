Tencent heeft een nieuwe AI-tool ontwikkeld die mensen wegblaast. Het gaat om een gratis, open model genaamd HunyuanWorld-Voyager waarbij er hele werelden kunnen worden gebouwd op basis van een foto. En dan niet gewoon een plaatje en dat is het: het zijn 3D-werelden waarin je zelfs de camera kunt bewegen.
Het is een indrukwekkende tool om te zien en Tencent doet ook zijn best om meteen te tonen hoe veelzijdig het kan zijn. Je kunt het natuurlijk als makelaar gebruiken als je wat foto’s van een huis hebt, maar ook als automaker om heel snel te bedenken hoe een auto er in het echt uit komt te zien. Dan is er ook nog het bouwen van werelden voor animatiefilms en games, zoals je boven dit artikel ziet: de toepassingsmogelijkheden zijn enorm.
Nu is dat gamevoorbeeld wel meer een mobiele game die niet zoveel vergt dan dat we kijken naar een grote triple A-titel, want het zijn geen echte 3D-modellen die eruit voortkomen. Het zijn 2D-videoframes die een soort ruimtelijke vastigheid hebben waardoor zo’n wereld wordt gebouwd. Elke keer dat je een foto instuurt worden er 49 frames gemaakt en dat is zo’n 2 seconden aan video. Je kunt er dus niet hele films mee maken nog. Dat zou ook wel heel veel rekenkracht en energie kosten, als dat inderdaad werd gedaan.
Je kiest nadat je een foto hebt geüpload zelf wat het camerastandpunt wordt en zo kun je rechtdoor door de wereld heen gaan, of juist rechts, of bochtjes ‘lopen’. De AI kan zich natuurlijk ‘voorstellen’ hoe iets er 3D uitziet omdat het is getraind op gigantische datasets. Het is dus ergens een soort ‘nadoen’, al schijnt de AI ook nieuwe patronen te genereren op basis van wat het ooit geleerd heeft.
Tencent zegt dat Voyager is getraind op meer dan 100.000 videoclips. En dan is er ook nog de nadruk gelegd op dat 3D kunnen maken van 2D-afbeeldingen en dus rekening houdende met die vaste ruimte die er tussen de verschillende objecten zit of moet zitten. En het systeem moet ook veel verstand hebben van geometrische vormen om zo te weten hoe objecten zich gedragen.
Bij het genereren van de video’s wordt er tegelijkertijd kleurenvideo en diepte-informatie verwerkt, zodat ze ideaal op elkaar aansluiten. Daarnaast is er een “wereldcache”, wat een verzameling 3D-punten is gebaseerd op eerder gegenereerde frames. Dus hij leert je wereld als het ware ook een beetje kennen. Iets wat toch wel hoop geeft voor het uiteindelijk maken van langere, grotere producties. Tegelijkertijd moeten we ons afvragen of ‘de hele wereld’ daar wel toegang toe moet hebben, want het is niet duurzaam om zoveel rekenkracht te gebruiken. Het is niet voor niets dat andere AI-bedrijven hun videotools ook slechts mondjesmaat beschikbaar maken.
Inmiddels begint het aantal videotools met AI dan ook wel enigszins te duizelen: er zijn zoveel tools om uit te kiezen, waarbij het ook nog best verschilt welke je gebruikt, dat het maar de vraag is of er uiteindelijk een soort winnaar uit de bus zal komen. Veo van Google is weer goed in audio, terwijl Sora weer heel goed filmische beelden kan maken: zo heeft elk AI-model duidelijk zijn specialiteit. Nu ook weer: wat Tencent nu doet hebben we ook niet eerder gezien.