Große Sprachmodelle (LLMs) sind hervorragend darin, Kontext zu verstehen und durch textuelles Schlussfolgern logische Antworten zu geben. Bei rechnerischen Aufgaben, die sich besser mit Code lösen lassen – etwa beim Vergleichen von Dezimalzahlen oder beim Lösen von Optimierungsproblemen –, stoßen sie jedoch häufig an ihre Grenzen.
Um diese Schwäche zu beheben, haben Forschende am MIT CodeSteer entwickelt: einen intelligenten Assistenten, der als Coach für größere Sprachmodelle fungiert und sie dazu anleitet, zwischen Text- und Code-Generierung zu wechseln, bis eine Anfrage korrekt beantwortet ist.
„Wir haben uns von Menschen inspirieren lassen. Im Sport ist ein Trainer vielleicht nicht besser als der Star-Athlet im Team, aber der Trainer kann dennoch hilfreiche Vorschläge machen, um den Athleten zu lenken. Diese Steuerungsmethode funktioniert auch bei LLMs“, erklärt Yongchao Chen, Doktorand an Harvard und MIT, der an dem Projekt mitgearbeitet hat.
CodeSteer selbst ist ein kleineres LLM, das auf dem Llama-3-8B-Modell feinjustiert wurde. Es prüft eine Anfrage und entscheidet, ob Text oder Code besser zur Lösung des Problems geeignet ist. Anschließend erzeugt es Eingabeaufforderungen (Prompts) für das größere LLM und leitet es an, die passende Methode zu verwenden. Ist die Antwort nicht korrekt, fordert CodeSteer das LLM weiter auf, verschiedene Ansätze zu versuchen, bis die richtige Lösung gefunden ist.
Die Forschenden stellten fest, dass die Ergänzung von GPT-4o mit CodeSteer die Genauigkeit bei symbolischen Aufgaben um mehr als 30 % steigerte – der durchschnittliche Leistungsscore stieg von 53,3 auf 86,4 über 37 Aufgaben hinweg. Damit übertraf das System sogar fortschrittlichere Modelle wie OpenAIs o1 (82,7) und DeepSeek R1 (76,8). Bemerkenswert ist zudem die starke Generalisierbarkeit von CodeSteer: Bei anderen Modellen wie Claude, Mistral und GPT-3.5 erzielte es im Schnitt eine Leistungssteigerung von 41,8 %.
Zur Entwicklung und zum Testen von CodeSteer erstellten die Forschenden SymBench, einen umfassenden Benchmark mit 37 symbolischen Aufgaben unterschiedlicher Komplexität. Diese umfassen Mathematik, räumliches Denken, Logik, Ordnungsdenken und Optimierungsprobleme.
Dieser Durchbruch könnte die Problemlösefähigkeiten von KI bei komplexen Aufgaben, die sich allein durch textuelles Schlussfolgern nur schwer lösen lassen, erheblich verbessern – etwa bei der Routenplanung für Roboter in unsicheren Umgebungen oder der Terminierung von Lieferungen in internationalen Lieferketten.
„Indem wir ein LLM mit der Fähigkeit ausstatten, intelligent Code zu nutzen, können wir ein ohnehin schon starkes Modell noch weiter verbessern“, betont Chen. Die Forschenden arbeiten nun daran, CodeSteer zu optimieren, um den iterativen Prompting-Prozess zu beschleunigen, und erforschen, wie sich ein einheitliches Modell trainieren lässt, das zwischen textuellem Schlussfolgern und Code-Generierung wechseln kann, ohne auf einen separaten Assistenten angewiesen zu sein.