Duże modele językowe (LLM) doskonale radzą sobie z rozumieniem kontekstu i udzielaniem logicznych odpowiedzi w oparciu o rozumowanie tekstowe. Często jednak mają trudności z zadaniami obliczeniowymi, które lepiej rozwiązywać za pomocą kodu – na przykład porównywaniem liczb dziesiętnych czy rozwiązywaniem problemów optymalizacyjnych.
Aby przezwyciężyć to ograniczenie, naukowcy z MIT opracowali CodeSteer – inteligentnego asystenta pełniącego rolę trenera dla większych modeli językowych, który kieruje nimi, przełączając je między generowaniem tekstu a kodu aż do uzyskania poprawnej odpowiedzi.
„Zainspirowaliśmy się ludźmi. W sporcie trener nie zawsze jest lepszy od gwiazdy drużyny, ale może udzielać cennych wskazówek, które pomagają sportowcowi. To podejście sprawdza się także w przypadku LLM” – wyjaśnia Yongchao Chen, doktorant na Harvardzie i MIT, współtwórca projektu.
Sam CodeSteer to mniejszy LLM, dostrojony na bazie modelu Llama-3-8B. Przegląda zapytanie i decyduje, czy do rozwiązania problemu lepiej nada się tekst, czy kod. Następnie generuje odpowiednie podpowiedzi dla większego LLM, kierując go do zastosowania właściwej metody. Jeśli odpowiedź jest błędna, CodeSteer kontynuuje podpowiadanie LLM, by próbował różnych podejść, aż do uzyskania poprawnego rozwiązania.
Badacze odkryli, że połączenie GPT-4o z CodeSteer zwiększyło jego skuteczność w zadaniach symbolicznych o ponad 30%, podnosząc średni wynik z 53,3 do 86,4 na 37 zadaniach. Dzięki temu model przewyższył nawet bardziej zaawansowane rozwiązania, takie jak OpenAI o1 (82,7) czy DeepSeek R1 (76,8). Co więcej, CodeSteer wykazał się dużą uniwersalnością, zapewniając średni wzrost wydajności o 41,8% także w przypadku innych modeli, takich jak Claude, Mistral czy GPT-3.5.
Aby opracować i przetestować CodeSteer, naukowcy stworzyli SymBench – kompleksowy zestaw testów obejmujący 37 zadań symbolicznych o regulowanym poziomie trudności. Obejmują one matematykę, rozumowanie przestrzenne, logikę, rozumowanie porządkowe oraz problemy optymalizacyjne.
To przełomowe rozwiązanie może znacząco poprawić zdolności AI do rozwiązywania złożonych problemów, które trudno rozstrzygnąć wyłącznie na podstawie rozumowania tekstowego – na przykład wyznaczania tras dla robotów w niepewnym środowisku czy planowania wysyłek w międzynarodowych łańcuchach dostaw.
„Dzięki wzbogaceniu LLM o umiejętność inteligentnego korzystania z kodowania możemy jeszcze bardziej poprawić wydajność już bardzo silnych modeli” – podkreśla Chen. Naukowcy pracują obecnie nad usprawnieniem CodeSteer, by przyspieszyć proces iteracyjnych podpowiedzi, oraz badają możliwości dostrojenia zintegrowanego modelu, który potrafiłby przełączać się między rozumowaniem tekstowym a generowaniem kodu bez potrzeby korzystania z osobnego asystenta.