Forskere har udviklet en ny generation af AI-modeller, der dynamisk kan tilpasse deres beregningsindsats efter problemets kompleksitet, hvilket repræsenterer et markant skifte i, hvordan kunstig intelligens tackler udfordrende opgaver.
Teknologien, eksemplificeret ved modeller som DeepSeek-R1 og OpenAI's o-serie, benytter det, udviklerne kalder en "reasoning-first-tilgang", hvor grundig analyse prioriteres over hurtig mønstergenkendelse. DeepSeek-R1 er bygget med denne reasoning-first-metodologi, hvilket gør den særligt velegnet til at løse komplekse opgaver inden for videnskab, kodning og matematik gennem avanceret logisk inferens og problemløsning. Dette fokus på "at tænke før man svarer" gør den især værdifuld til tekniske anvendelser.
I modsætning til konventionelle AI-systemer er disse nye ræsonneringsmodeller trænet til at "tænke i længere tid" før de svarer. OpenAI's o3 kan for eksempel nedbryde svære spørgsmål i logiske trin, udføre mellemliggende beregninger eller værktøjskald og derefter levere velbegrundede svar. Som ræsonneringsmodeller faktatjekker de effektivt sig selv, hvilket hjælper med at undgå faldgruber, der typisk snubler standardmodeller. Selvom de bruger sekunder til minutter længere på at nå frem til løsninger sammenlignet med typiske ikke-ræsonnerende modeller, er de ofte mere pålidelige inden for områder som fysik, videnskab og matematik.
OpenAI har observeret, at storskala forstærkningslæring udviser den samme "mere beregning = bedre præstation"-tendens, som tidligere er set under modeltræning. Ved at gentage denne skalering – denne gang i forstærkningslæring – har de øget både træningsberegning og ræsonnering under inferens med en størrelsesorden, hvilket tydeligt viser, at modellernes præstation fortsætter med at forbedres, jo mere de får lov at tænke.
Disse modeller genererer aktivt flere løsningsveje under inferens og vurderer hver enkelt med hjælp fra integrerede evalueringsmodeller for at finde den mest lovende mulighed. Ved at træne evaluatorerne på ekspertmærkede data sikrer udviklerne, at modellerne opbygger en stærk evne til at ræsonnere gennem komplekse, flertrinsproblemer. Denne funktion gør det muligt for modellen at agere som dommer over sin egen ræsonnering og bringer store sprogmodeller tættere på at kunne "tænke" frem for blot at svare.
DeepSeeks tilgang kombinerer chain-of-thought-ræsonnering med forstærkningslæring, hvor en autonom agent lærer at udføre en opgave gennem forsøg og fejl uden menneskelig instruktion. Dette udfordrer antagelsen om, at modeller kun vil forbedre deres ræsonneringsevne ved at blive trænet på mærkede eksempler på korrekt adfærd. Som en forsker udtrykte det: "Kan vi bare belønne modellen for korrekthed og lade den selv finde den bedste måde at tænke på?"
Konsekvenserne for virkelige anvendelser er dybtgående. Disse modeller kan forvandle, hvordan AI håndterer komplekse problemer inden for alt fra videnskabelig forskning og ingeniørarbejde til forretningsstrategi og kreativ problemløsning. Ved at allokere beregningsressourcer proportionalt med opgavens sværhedsgrad – på samme måde som mennesker naturligt bruger mere tid på svære problemer – lover disse systemer mere pålidelig præstation på de mest udfordrende intellektuelle opgaver, menneskeheden står overfor.