menu
close

AI-modeller lär sig nu att lägga mer tid på komplexa problem

En banbrytande AI-modell har utvecklats som lär sig att fördela mer beräkningsresurser till svåra problem, och efterliknar därmed hur människor spenderar mer tid på utmanande uppgifter. Denna adaptiva resonemangsförmåga möjliggör robustare lösningar och bättre generalisering till nya, tidigare osedda scenarier. Innovationen utgör ett betydande framsteg inom AI:s problemlösning, och för AI bortom mönsterigenkänning mot mer människoliknande resonemangsprocesser.
AI-modeller lär sig nu att lägga mer tid på komplexa problem

Forskare har utvecklat en ny generation AI-modeller som dynamiskt kan anpassa sin beräkningsinsats utifrån problemets komplexitet, vilket markerar ett stort skifte i hur artificiell intelligens närmar sig utmanande uppgifter.

Teknologin, exemplifierad av modeller som DeepSeek-R1 och OpenAI:s o-serie, använder vad utvecklarna kallar ett "resoneringsförst-tillvägagångssätt" som prioriterar noggrann analys framför snabb mönsterigenkänning. DeepSeek-R1 är byggd med denna resoneringsförsta metodik, vilket gör den särskilt lämpad för att tackla komplexa uppgifter inom vetenskap, programmering och matematik genom avancerad logisk slutledning och problemlösning. Detta fokus på att "tänka före svar" gör den särskilt värdefull för tekniska tillämpningar.

Till skillnad från konventionella AI-system tränas dessa nya resonemangsmodeller att "tänka längre" innan de svarar. OpenAI:s o3 kan till exempel bryta ner svåra frågor i logiska steg, utföra mellanliggande beräkningar eller verktygsanrop och därefter leverera välgrundade svar. Eftersom de är resonemangsmodeller kan de effektivt faktagranska sig själva, vilket hjälper till att undvika fallgropar som ofta fäller standardmodeller. Även om de tar sekunder till minuter längre på sig att hitta lösningar jämfört med typiska icke-resonerande modeller, tenderar de att vara mer tillförlitliga inom områden som fysik, vetenskap och matematik.

OpenAI har observerat att storskalig förstärkningsinlärning uppvisar samma "mer beräkning = bättre prestanda"-trend som sågs vid tidigare modellträning. Genom att återupprepa skalningsvägen—denna gång inom förstärkningsinlärning—har de ökat både träningsberäkning och resonemangstid under inferens med en storleksordning, med tydliga prestandavinster som bekräftar att modellernas prestanda fortsätter att förbättras ju mer de får tänka.

Dessa modeller genererar aktivt flera lösningsvägar under inferens, och utvärderar varje väg med hjälp av integrerade utvärderingsmodeller för att avgöra det mest lovande alternativet. Genom att träna utvärderaren på expertmärkta data säkerställer utvecklarna att modellerna utvecklar en stark förmåga att resonera genom komplexa, flerstegiga problem. Denna funktion gör att modellen kan agera domare över sitt eget resonemang, vilket för stora språkmodeller närmare att kunna "tänka" snarare än bara svara.

DeepSeeks tillvägagångssätt kombinerar kedjeresonemang (chain-of-thought) med förstärkningsinlärning där en autonom agent lär sig utföra en uppgift genom trial-and-error utan mänskliga instruktioner. Detta ifrågasätter antagandet att modeller förbättrar sitt resonemang enbart genom träning på märkta exempel av korrekt beteende. Som en forskare uttryckte det: "Kan vi bara belöna modellen för korrekthet och låta den själv upptäcka det bästa sättet att tänka?"

Implikationerna för verkliga tillämpningar är djupgående. Dessa modeller kan förändra hur AI hanterar komplexa problem inom allt från vetenskaplig forskning och ingenjörskonst till affärsstrategi och kreativ problemlösning. Genom att fördela beräkningsresurser proportionerligt till uppgiftens svårighetsgrad—på samma sätt som människor naturligt lägger mer tid på svårare problem—lovar dessa system mer tillförlitlig prestanda på de mest utmanande intellektuella uppgifter mänskligheten står inför.

Source:

Latest News