In einem bedeutenden Meilenstein für künstliche Intelligenz hat OpenAI bekannt gegeben, dass sein neuestes experimentelles Reasoning-Modell bei der Internationalen Mathematik-Olympiade (IMO) 2025 eine Leistung auf Goldmedaillen-Niveau erreicht hat. Die IMO gilt als der weltweit renommierteste Mathematikwettbewerb.
Das Modell löste erfolgreich fünf von sechs Aufgaben der IMO 2025 und erzielte damit 35 von 42 möglichen Punkten – entsprechend einer Goldmedaille. Besonders bemerkenswert ist, dass die KI unter denselben strengen Bedingungen wie menschliche Teilnehmer arbeitete: Zwei 4,5-stündige Prüfungssitzungen ohne Zugang zu Hilfsmitteln, Internet oder externer Unterstützung.
„Das stellt im Vergleich zu bisherigen Benchmarks eine neue Stufe anhaltend kreativen Denkens dar“, erklärte Alexander Wei, OpenAI-Forscher und Verkünder des Durchbruchs. Wei betonte, dass sich der Reasoning-Zeithorizont von einfachen Mathematikaufgaben, die Spitzenmenschen in etwa 0,1 Minuten lösen, hin zu IMO-Problemen entwickelt habe, die rund 100 Minuten konzentrierte Anstrengung erfordern.
Im Gegensatz zu früheren KI-Systemen, die speziell für mathematische Wettbewerbe entwickelt wurden, handelt es sich bei OpenAIs Modell um ein universelles Reasoning-Sprachmodell, das neue experimentelle Techniken im Bereich Reinforcement Learning und Testzeit-Skalierung der Rechenleistung integriert. Drei ehemalige IMO-Medaillengewinner bewerteten die eingereichten Beweise des Modells unabhängig voneinander; die Punktzahlen wurden nach einstimmigem Konsens finalisiert.
Dieser Erfolg ist besonders bemerkenswert im Vergleich zu anderen führenden KI-Modellen. In einer aktuellen Bewertung von MathArena.ai scheiterten Wettbewerber wie Gemini 2.5 Pro, Grok-4 und OpenAIs früheres o3-Modell daran, selbst die Bronzemedaille bei denselben Aufgaben zu erreichen.
Das Timing dieses Durchbruchs fällt mit der bevorstehenden Veröffentlichung von GPT-5 zusammen, die in den kommenden Monaten erwartet wird. Laut mehreren Quellen wird GPT-5 OpenAIs verschiedene spezialisierte Modelle – einschließlich der in diesem IMO-Erfolg demonstrierten Reasoning-Fähigkeiten – in einem einzigen System vereinen, das mit einem intelligenten Router automatisch den jeweils passendsten Ansatz für jede Aufgabe auswählt.
„Das IMO-Gold-LLM ist ein experimentelles Forschungsmodell. Wir planen nicht, in den nächsten Monaten etwas mit diesem Mathematik-Niveau zu veröffentlichen“, stellte Wei klar und deutete an, dass diese fortgeschrittenen Reasoning-Fähigkeiten in zukünftige öffentliche Releases einfließen könnten.