I en markant milepæl for kunstig intelligens har både OpenAI og Google DeepMind demonstreret matematisk ræsonnement på guldmedaljeniveau ved den Internationale Matematikolympiade (IMO) 2025, verdens mest prestigefyldte konkurrence for unge matematikere.
Begge virksomheders AI-modeller opnåede identiske resultater med 35 ud af 42 mulige point og løste fem ud af seks opgaver perfekt. Denne præstation matchede grænsen for guldmedalje ved årets konkurrence, hvor kun omkring 11% af de 630 menneskelige deltagere (cirka 67 studerende) modtog guldmedaljer.
Google DeepMinds avancerede version af Gemini med Deep Think blev officielt bedømt og certificeret af IMO-koordinatorer, hvor IMO's præsident Gregor Dolinar bemærkede, at deres løsninger var "forbløffende på mange måder" og "klare, præcise og de fleste lette at følge". Dette markerer en betydelig fremgang i forhold til sidste år, hvor DeepMind opnåede sølvmedalje med specialiserede systemer.
OpenAI evaluerede sin eksperimentelle ræsonnementsmodel på de samme opgaver under identiske konkurrencebetingelser – to 4,5-timers eksamenssessioner uden internetadgang eller hjælpemidler. Selvom OpenAI ikke var en del af IMO's officielle evalueringsproces, fik virksomheden sine løsninger uafhængigt bedømt af tre tidligere IMO-medaljevindere.
Timingen af offentliggørelserne skabte en vis spænding mellem virksomhederne. OpenAI offentliggjorde sine resultater den 19. juli, mens Google DeepMind ventede til den 21. juli for at respektere IMO-bestyrrelsens ønske om at dele resultaterne efter officiel verifikation og anerkendelse af studerende.
Junehyuk Jung, matematikprofessor ved Brown University og gæsteforsker hos Google DeepMind, mener, at denne præstation antyder, at AI er mindre end et år fra at kunne hjælpe matematikere med uløste forskningsproblemer på matematikkens frontlinje. "Jeg tror, at det øjeblik, vi kan løse svære ræsonnementsopgaver i naturligt sprog, vil muliggøre samarbejde mellem AI og matematikere," udtalte Jung til Reuters.
Selvom præstationen er imponerende, advarer nogle eksperter om, at IMO-opgaver, selvom de er svære, er konceptuelt enklere end forskning på den matematiske frontlinje. Resultatet viser AI's voksende evner inden for ræsonnement, men indikerer ikke nødvendigvis, at teknologien er klar til alle aspekter af matematisk forskning.