MITs KI-Coach steigert Problemlösefähigkeiten von Sprachmodellen

Forschende am MIT haben mit CodeSteer einen intelligenten Assistenten entwickelt, der große Sprachmodelle dazu anleitet, zwischen Text- und Code-Generierung zu wechseln, bis komplexe Anfragen korrekt beantwortet sind. Das System erhöhte die Genauigkeit von LLMs bei symbolischen Aufgaben wie Mathematikproblemen und räumlichem Denken um mehr als 30 % und ermöglicht es weniger leistungsfähigen Modellen, fortschrittlichere zu übertreffen. Dieser Durchbruch könnte die Problemlösefähigkeiten von KI bei komplexen Aufgaben in Robotik, Lieferkettenmanagement und anderen Bereichen, die präzises rechnerisches Denken erfordern, erheblich verbessern.

Große Sprachmodelle (LLMs) sind hervorragend darin, Kontext zu verstehen und durch textuelles Schlussfolgern logische Antworten zu geben. Bei rechnerischen Aufgaben, die sich besser mit Code lösen lassen – etwa beim Vergleichen von Dezimalzahlen oder beim Lösen von Optimierungsproblemen –, stoßen sie jedoch häufig an ihre Grenzen.

Um diese Schwäche zu beheben, haben Forschende am MIT CodeSteer entwickelt: einen intelligenten Assistenten, der als Coach für größere Sprachmodelle fungiert und sie dazu anleitet, zwischen Text- und Code-Generierung zu wechseln, bis eine Anfrage korrekt beantwortet ist.

„Wir haben uns von Menschen inspirieren lassen. Im Sport ist ein Trainer vielleicht nicht besser als der Star-Athlet im Team, aber der Trainer kann dennoch hilfreiche Vorschläge machen, um den Athleten zu lenken. Diese Steuerungsmethode funktioniert auch bei LLMs“, erklärt Yongchao Chen, Doktorand an Harvard und MIT, der an dem Projekt mitgearbeitet hat.

CodeSteer selbst ist ein kleineres LLM, das auf dem Llama-3-8B-Modell feinjustiert wurde. Es prüft eine Anfrage und entscheidet, ob Text oder Code besser zur Lösung des Problems geeignet ist. Anschließend erzeugt es Eingabeaufforderungen (Prompts) für das größere LLM und leitet es an, die passende Methode zu verwenden. Ist die Antwort nicht korrekt, fordert CodeSteer das LLM weiter auf, verschiedene Ansätze zu versuchen, bis die richtige Lösung gefunden ist.

Die Forschenden stellten fest, dass die Ergänzung von GPT-4o mit CodeSteer die Genauigkeit bei symbolischen Aufgaben um mehr als 30 % steigerte – der durchschnittliche Leistungsscore stieg von 53,3 auf 86,4 über 37 Aufgaben hinweg. Damit übertraf das System sogar fortschrittlichere Modelle wie OpenAIs o1 (82,7) und DeepSeek R1 (76,8). Bemerkenswert ist zudem die starke Generalisierbarkeit von CodeSteer: Bei anderen Modellen wie Claude, Mistral und GPT-3.5 erzielte es im Schnitt eine Leistungssteigerung von 41,8 %.

Zur Entwicklung und zum Testen von CodeSteer erstellten die Forschenden SymBench, einen umfassenden Benchmark mit 37 symbolischen Aufgaben unterschiedlicher Komplexität. Diese umfassen Mathematik, räumliches Denken, Logik, Ordnungsdenken und Optimierungsprobleme.

Dieser Durchbruch könnte die Problemlösefähigkeiten von KI bei komplexen Aufgaben, die sich allein durch textuelles Schlussfolgern nur schwer lösen lassen, erheblich verbessern – etwa bei der Routenplanung für Roboter in unsicheren Umgebungen oder der Terminierung von Lieferungen in internationalen Lieferketten.

„Indem wir ein LLM mit der Fähigkeit ausstatten, intelligent Code zu nutzen, können wir ein ohnehin schon starkes Modell noch weiter verbessern“, betont Chen. Die Forschenden arbeiten nun daran, CodeSteer zu optimieren, um den iterativen Prompting-Prozess zu beschleunigen, und erforschen, wie sich ein einheitliches Modell trainieren lässt, das zwischen textuellem Schlussfolgern und Code-Generierung wechseln kann, ohne auf einen separaten Assistenten angewiesen zu sein.

MITs KI-Coach steigert Problemlösefähigkeiten von Sprachmodellen

Latest News

OpenAI vereint KI-Tools mit ChatGPT Agent für autonome Aufgaben

OpenAI will ChatGPT mit Shopify-Checkout zum Shopping-Hub ausbauen

KI-Automatisierung treibt Tech Mahindras Wachstum trotz IT-Gegenwind an

xAI bringt sexualisierte KI-Begleiter auf den Markt – zeitgleich mit Pentagon-Deal

Googles KI übernimmt jetzt Telefonate für Sie

Muratis Thinking Machines Lab sichert sich 2 Milliarden US-Dollar für KI-Revolution

S&P Global stellt KI-bereite Metadaten zur Transformation der Finanzanalyse vor

Fed setzt auf KI für Forschung und untersucht gleichzeitig deren wirtschaftliche Auswirkungen

AWS stellt maßgeschneidertes Kühlsystem für Next-Gen KI-Chips vor

MIT identifiziert Hürden für KI-gesteuerte Softwareentwicklung

MITs KI-Coach steigert Problemlösefähigkeiten von Sprachmodellen

Related Articles

OpenAI vereint KI-Tools mit ChatGPT Agent für autonome Aufgaben

OpenAI will ChatGPT mit Shopify-Checkout zum Shopping-Hub ausbauen

KI-Automatisierung treibt Tech Mahindras Wachstum trotz IT-Gegenwind an

xAI bringt sexualisierte KI-Begleiter auf den Markt – zeitgleich mit Pentagon-Deal

Fed setzt auf KI für Forschung und untersucht gleichzeitig deren wirtschaftliche Auswirkungen

Latest News

OpenAI vereint KI-Tools mit ChatGPT Agent für autonome Aufgaben

OpenAI will ChatGPT mit Shopify-Checkout zum Shopping-Hub ausbauen

KI-Automatisierung treibt Tech Mahindras Wachstum trotz IT-Gegenwind an

xAI bringt sexualisierte KI-Begleiter auf den Markt – zeitgleich mit Pentagon-Deal

Googles KI übernimmt jetzt Telefonate für Sie

Muratis Thinking Machines Lab sichert sich 2 Milliarden US-Dollar für KI-Revolution

S&P Global stellt KI-bereite Metadaten zur Transformation der Finanzanalyse vor

Fed setzt auf KI für Forschung und untersucht gleichzeitig deren wirtschaftliche Auswirkungen

AWS stellt maßgeschneidertes Kühlsystem für Next-Gen KI-Chips vor

MIT identifiziert Hürden für KI-gesteuerte Softwareentwicklung