Onderzoekers hebben een nieuwe generatie AI-modellen ontwikkeld die hun rekeninspanningen dynamisch kunnen aanpassen op basis van de complexiteit van een probleem. Dit betekent een grote verschuiving in de manier waarop kunstmatige intelligentie uitdagende taken benadert.
De technologie, geïllustreerd door modellen als DeepSeek-R1 en de o-serie van OpenAI, maakt gebruik van wat ontwikkelaars een "reasoning-first approach" noemen, waarbij grondige analyse voorrang krijgt boven snelle patroonherkenning. DeepSeek-R1 is gebouwd volgens deze redeneer-eerstmethodologie en is daardoor bijzonder geschikt voor het aanpakken van complexe taken in wetenschap, programmeren en wiskunde via geavanceerde logische inferentie en probleemoplossing. Deze focus op "nadenken vóór antwoorden" maakt het model vooral waardevol voor technische toepassingen.
In tegenstelling tot conventionele AI-systemen zijn deze nieuwe redeneermodellen getraind om "langer na te denken" voordat ze reageren. Zo kan OpenAI’s o3 moeilijke vragen opdelen in logische stappen, tussentijdse berekeningen of tool-aanroepen uitvoeren en vervolgens goed onderbouwde antwoorden genereren. Omdat het redeneermodellen zijn, controleren ze effectief hun eigen feiten, wat helpt valkuilen te vermijden waar standaardmodellen vaak in trappen. Hoewel ze seconden tot minuten langer doen over het vinden van oplossingen dan typische niet-redeneermodellen, zijn ze doorgaans betrouwbaarder in domeinen als natuurkunde, wetenschap en wiskunde.
OpenAI heeft vastgesteld dat grootschalige reinforcement learning hetzelfde "meer rekenkracht = betere prestaties"-patroon vertoont als bij eerdere modeltrainingen. Door het schaalpad opnieuw te bewandelen—ditmaal in reinforcement learning—hebben ze een orde van grootte extra bereikt in zowel trainingsrekenkracht als redeneertijd tijdens inferentie, met duidelijke prestatieverbeteringen als gevolg. Dit bevestigt dat de prestaties van de modellen blijven toenemen naarmate ze meer tijd krijgen om na te denken.
Deze modellen genereren actief meerdere oplossingspaden tijdens inferentie en evalueren elk pad met behulp van geïntegreerde evaluatiemodellen om de meest veelbelovende optie te bepalen. Door de evaluator te trainen op door experts gelabelde data, zorgen ontwikkelaars ervoor dat de modellen een sterke capaciteit ontwikkelen om complexe, meerstapsproblemen te doorgronden. Deze eigenschap stelt het model in staat als rechter van zijn eigen redeneervermogen op te treden, waardoor grote taalmodellen dichter bij het vermogen komen om echt te "denken" in plaats van alleen te reageren.
DeepSeek’s aanpak combineert chain-of-thought redeneren met reinforcement learning, waarbij een autonoom agent leert een taak uit te voeren via trial-and-error zonder menselijke instructies. Dit stelt de aanname ter discussie dat modellen hun redeneervermogen uitsluitend verbeteren door training op gelabelde voorbeelden van correct gedrag. Zoals een onderzoeker het verwoordde: "Kunnen we het model gewoon belonen voor correctheid en het zelf de beste manier van denken laten ontdekken?"
De implicaties voor toepassingen in de echte wereld zijn diepgaand. Deze modellen kunnen de manier waarop AI complexe problemen aanpakt in uiteenlopende sectoren—van wetenschappelijk onderzoek en techniek tot bedrijfsstrategie en creatieve probleemoplossing—ingrijpend veranderen. Door rekenkracht proportioneel toe te wijzen aan de moeilijkheidsgraad van een taak, vergelijkbaar met hoe mensen meer tijd besteden aan lastigere problemen, beloven deze systemen betrouwbaardere prestaties op de meest uitdagende intellectuele vraagstukken waar de mensheid voor staat.