Sztuczny trener MIT zwiększa zdolności rozwiązywania problemów przez modele językowe

Naukowcy z MIT opracowali CodeSteer – inteligentnego asystenta, który kieruje dużymi modelami językowymi, przełączając je między generowaniem tekstu a kodu aż do poprawnego rozwiązania złożonych zapytań. System zwiększył dokładność LLM w zadaniach symbolicznych, takich jak problemy matematyczne i rozumowanie przestrzenne, o ponad 30%, umożliwiając mniej zaawansowanym modelom przewyższenie bardziej rozwiniętych. To przełomowe rozwiązanie może znacząco poprawić zdolności AI do rozwiązywania złożonych problemów w robotyce, zarządzaniu łańcuchem dostaw i innych dziedzinach wymagających precyzyjnego rozumowania obliczeniowego.

Duże modele językowe (LLM) doskonale radzą sobie z rozumieniem kontekstu i udzielaniem logicznych odpowiedzi w oparciu o rozumowanie tekstowe. Często jednak mają trudności z zadaniami obliczeniowymi, które lepiej rozwiązywać za pomocą kodu – na przykład porównywaniem liczb dziesiętnych czy rozwiązywaniem problemów optymalizacyjnych.

Aby przezwyciężyć to ograniczenie, naukowcy z MIT opracowali CodeSteer – inteligentnego asystenta pełniącego rolę trenera dla większych modeli językowych, który kieruje nimi, przełączając je między generowaniem tekstu a kodu aż do uzyskania poprawnej odpowiedzi.

„Zainspirowaliśmy się ludźmi. W sporcie trener nie zawsze jest lepszy od gwiazdy drużyny, ale może udzielać cennych wskazówek, które pomagają sportowcowi. To podejście sprawdza się także w przypadku LLM” – wyjaśnia Yongchao Chen, doktorant na Harvardzie i MIT, współtwórca projektu.

Sam CodeSteer to mniejszy LLM, dostrojony na bazie modelu Llama-3-8B. Przegląda zapytanie i decyduje, czy do rozwiązania problemu lepiej nada się tekst, czy kod. Następnie generuje odpowiednie podpowiedzi dla większego LLM, kierując go do zastosowania właściwej metody. Jeśli odpowiedź jest błędna, CodeSteer kontynuuje podpowiadanie LLM, by próbował różnych podejść, aż do uzyskania poprawnego rozwiązania.

Badacze odkryli, że połączenie GPT-4o z CodeSteer zwiększyło jego skuteczność w zadaniach symbolicznych o ponad 30%, podnosząc średni wynik z 53,3 do 86,4 na 37 zadaniach. Dzięki temu model przewyższył nawet bardziej zaawansowane rozwiązania, takie jak OpenAI o1 (82,7) czy DeepSeek R1 (76,8). Co więcej, CodeSteer wykazał się dużą uniwersalnością, zapewniając średni wzrost wydajności o 41,8% także w przypadku innych modeli, takich jak Claude, Mistral czy GPT-3.5.

Aby opracować i przetestować CodeSteer, naukowcy stworzyli SymBench – kompleksowy zestaw testów obejmujący 37 zadań symbolicznych o regulowanym poziomie trudności. Obejmują one matematykę, rozumowanie przestrzenne, logikę, rozumowanie porządkowe oraz problemy optymalizacyjne.

To przełomowe rozwiązanie może znacząco poprawić zdolności AI do rozwiązywania złożonych problemów, które trudno rozstrzygnąć wyłącznie na podstawie rozumowania tekstowego – na przykład wyznaczania tras dla robotów w niepewnym środowisku czy planowania wysyłek w międzynarodowych łańcuchach dostaw.

„Dzięki wzbogaceniu LLM o umiejętność inteligentnego korzystania z kodowania możemy jeszcze bardziej poprawić wydajność już bardzo silnych modeli” – podkreśla Chen. Naukowcy pracują obecnie nad usprawnieniem CodeSteer, by przyspieszyć proces iteracyjnych podpowiedzi, oraz badają możliwości dostrojenia zintegrowanego modelu, który potrafiłby przełączać się między rozumowaniem tekstowym a generowaniem kodu bez potrzeby korzystania z osobnego asystenta.

Sztuczny trener MIT zwiększa zdolności rozwiązywania problemów przez modele językowe

Latest News

OpenAI łączy narzędzia AI w ChatGPT Agent do autonomicznych zadań

OpenAI przekształci ChatGPT w centrum zakupowe z płatnościami Shopify

Automatyzacja AI napędza wzrost Tech Mahindra mimo przeciwności w branży IT

xAI wprowadza seksualizowane AI-kompaniony równocześnie z kontraktem z Pentagonem

Sztuczna inteligencja Google teraz wykonuje telefony za Ciebie

Thinking Machines Lab Murati pozyskuje 2 mld dolarów na rewolucję AI

S&P Global prezentuje metadane gotowe na AI, które zrewolucjonizują analitykę finansową

Fed stawia na sztuczną inteligencję w badaniach, analizując jednocześnie jej wpływ na gospodarkę

AWS prezentuje autorski system chłodzenia dla najnowszych chipów AI

MIT wyznacza przeszkody na drodze do inżynierii oprogramowania napędzanej przez AI

Sztuczny trener MIT zwiększa zdolności rozwiązywania problemów przez modele językowe

Related Articles

OpenAI łączy narzędzia AI w ChatGPT Agent do autonomicznych zadań

OpenAI przekształci ChatGPT w centrum zakupowe z płatnościami Shopify

Automatyzacja AI napędza wzrost Tech Mahindra mimo przeciwności w branży IT

xAI wprowadza seksualizowane AI-kompaniony równocześnie z kontraktem z Pentagonem

Fed stawia na sztuczną inteligencję w badaniach, analizując jednocześnie jej wpływ na gospodarkę

Latest News

OpenAI łączy narzędzia AI w ChatGPT Agent do autonomicznych zadań

OpenAI przekształci ChatGPT w centrum zakupowe z płatnościami Shopify

Automatyzacja AI napędza wzrost Tech Mahindra mimo przeciwności w branży IT

xAI wprowadza seksualizowane AI-kompaniony równocześnie z kontraktem z Pentagonem

Sztuczna inteligencja Google teraz wykonuje telefony za Ciebie

Thinking Machines Lab Murati pozyskuje 2 mld dolarów na rewolucję AI

S&P Global prezentuje metadane gotowe na AI, które zrewolucjonizują analitykę finansową

Fed stawia na sztuczną inteligencję w badaniach, analizując jednocześnie jej wpływ na gospodarkę

AWS prezentuje autorski system chłodzenia dla najnowszych chipów AI

MIT wyznacza przeszkody na drodze do inżynierii oprogramowania napędzanej przez AI