In een belangrijke mijlpaal voor kunstmatige intelligentie hebben zowel OpenAI als Google DeepMind wiskundig redeneervermogen op goudenmedaille-niveau getoond tijdens de Internationale Wiskunde Olympiade (IMO) van 2025, de meest prestigieuze wedstrijd voor jonge wiskundigen ter wereld.
De AI-modellen van beide bedrijven behaalden identieke scores van 35 uit een maximum van 42 punten, waarbij ze vijf van de zes opgaven perfect oplosten. Deze prestatie kwam overeen met de drempel voor een gouden medaille op de IMO van dit jaar, waar slechts ongeveer 11% van de 630 menselijke deelnemers (ongeveer 67 studenten) een gouden medaille ontving.
De geavanceerde versie van Gemini met Deep Think van Google DeepMind werd officieel beoordeeld en gecertificeerd door IMO-coördinatoren. IMO-voorzitter Gregor Dolinar merkte op dat hun oplossingen "op veel vlakken verbazingwekkend" waren en "duidelijk, precies en de meeste eenvoudig te volgen". Dit betekent een aanzienlijke vooruitgang ten opzichte van vorig jaar, toen DeepMind met gespecialiseerde systemen nog zilver behaalde.
OpenAI testte zijn experimentele redeneermodel op dezelfde opgaven onder identieke wedstrijdomstandigheden: twee examensessies van 4,5 uur zonder internettoegang of hulpmiddelen. Hoewel OpenAI niet deelnam aan het officiële IMO-beoordelingsproces, liet het bedrijf de oplossingen onafhankelijk beoordelen door drie voormalige IMO-medaillewinnaars.
De timing van de aankondigingen zorgde voor enige spanning tussen de bedrijven. OpenAI publiceerde zijn resultaten op 19 juli, terwijl Google DeepMind wachtte tot 21 juli, uit respect voor het verzoek van het IMO-bestuur om de resultaten pas na officiële verificatie en erkenning van de studenten te delen.
Junehyuk Jung, wiskundeprofessor aan Brown University en gastonderzoeker bij Google DeepMind, gelooft dat deze prestatie suggereert dat AI minder dan een jaar verwijderd is van het ondersteunen van wiskundigen bij het oplossen van onopgeloste onderzoeksproblemen aan de grens van de wiskunde. "Ik denk dat het moment waarop we moeilijke redeneerproblemen in natuurlijke taal kunnen oplossen, de samenwerking tussen AI en wiskundigen mogelijk zal maken," aldus Jung tegen Reuters.
Hoewel indrukwekkend, waarschuwen sommige experts dat IMO-opgaven, hoe moeilijk ook, conceptueel eenvoudiger zijn dan grensverleggend wiskundig onderzoek. De prestatie toont de groeiende redeneercapaciteiten van AI aan, maar betekent niet per se dat AI klaar is voor alle aspecten van wiskundig onderzoek.