I en betydande milstolpe för artificiell intelligens har både OpenAI och Google DeepMind visat upp matematisk resonemangsförmåga på guldmedaljnivå vid den Internationella matematikolympiaden (IMO) 2025, världens mest prestigefyllda tävling för unga matematiker.
Båda företagens AI-modeller uppnådde identiska poäng: 35 av maximala 42, efter att ha löst fem av sex problem felfritt. Denna prestation motsvarade gränsen för guldmedalj vid årets tävling, där endast cirka 11% av de 630 mänskliga deltagarna (ungefär 67 elever) tilldelades guldmedalj.
Google DeepMinds avancerade version av Gemini med Deep Think blev officiellt rättad och certifierad av IMO:s koordinatorer. IMO:s ordförande Gregor Dolinar noterade att deras lösningar var "häpnadsväckande på många sätt" och "tydliga, precisa och de flesta lätta att följa". Detta markerar ett betydande framsteg jämfört med förra året, då DeepMind nådde silvermedaljnivå med specialiserade system.
OpenAI utvärderade sin experimentella resonemangsmodell på samma problem under identiska tävlingsförhållanden—två provpass på 4,5 timmar utan tillgång till internet eller hjälpmedel. Även om OpenAI inte deltog i IMO:s officiella utvärderingsprocess, lät företaget sina lösningar granskas oberoende av tre tidigare IMO-medaljörer.
Tidpunkten för offentliggörandet skapade viss spänning mellan företagen. OpenAI publicerade sina resultat den 19 juli, medan Google DeepMind väntade till den 21 juli, i enlighet med IMO-styrelsens önskan om att dela resultat först efter officiell verifiering och erkännande av eleverna.
Junehyuk Jung, matematikprofessor vid Brown University och gästforskare hos Google DeepMind, menar att denna prestation tyder på att AI är mindre än ett år från att kunna hjälpa matematiker att angripa olösta forskningsproblem i matematikens framkant. "Jag tror att när vi kan lösa svåra resonemangsproblem på naturligt språk öppnar det för samarbete mellan AI och matematiker," sade Jung till Reuters.
Även om framsteget är imponerande, varnar vissa experter för att IMO-problem, trots sin svårighetsgrad, är konceptuellt enklare än den matematiska forskningsfronten. Prestationen visar på AI:s växande resonemangsförmåga, men innebär inte nödvändigtvis att systemen är redo för alla aspekter av matematisk forskning.