Büyük dil modelleri (LLM'ler), bağlamı anlama ve metinsel akıl yürütme yoluyla mantıklı yanıtlar verme konusunda oldukça başarılı. Ancak, ondalık sayıları karşılaştırmak veya optimizasyon problemlerini çözmek gibi kod kullanılarak daha iyi çözülebilecek hesaplama gerektiren görevlerde genellikle zorlanıyorlar.
Bu sınırlamayı aşmak için MIT'den araştırmacılar, büyük dil modellerine bir koç gibi rehberlik eden ve doğru cevaba ulaşana kadar metin ile kod üretimi arasında yönlendiren akıllı bir asistan olan CodeSteer'i geliştirdi.
"İlham kaynağımız insanlar oldu. Sporda, bir antrenör takımın yıldız oyuncusundan daha iyi olmayabilir, ancak yine de oyuncuya rehberlik edecek faydalı önerilerde bulunabilir. Bu yönlendirme yöntemi, büyük dil modellerinde de işe yarıyor," diyor projede çalışan Harvard ve MIT yüksek lisans öğrencisi Yongchao Chen.
Kendisi, Llama-3-8B modeli üzerinde ince ayar yapılmış daha küçük bir dil modeli olan CodeSteer, bir sorguyu inceleyip problemi çözmek için metin mi yoksa kodun mu daha uygun olduğuna karar veriyor. Ardından, büyük dil modeline uygun yöntemi kullanması için istemler oluşturuyor. Eğer cevap doğru değilse, CodeSteer büyük dil modelini farklı yaklaşımlar denemesi için yönlendirmeye devam ediyor ve doğru çözüme ulaşana kadar süreci tekrarlıyor.
Araştırmacılar, CodeSteer ile desteklenen GPT-4o'nun sembolik görevlerdeki doğruluğunun %30'dan fazla arttığını, 37 görevdeki ortalama performans puanının 53,3'ten 86,4'e yükseldiğini tespit etti. Bu gelişme, GPT-4o'nun OpenAI'nin o1 (82,7) ve DeepSeek R1 (76,8) gibi daha gelişmiş modelleri bile geride bırakmasını sağladı. Dikkat çekici bir şekilde, CodeSteer, Claude, Mistral ve GPT-3.5 gibi diğer modellere uygulandığında da ortalama %41,8'lik bir performans artışı göstererek güçlü bir genellenebilirlik sergiledi.
CodeSteer'i geliştirmek ve test etmek için araştırmacılar, ayarlanabilir zorluk seviyelerine sahip 37 sembolik görevden oluşan kapsamlı bir kıyaslama seti olan SymBench'i oluşturdu. Bu görevler matematik, mekânsal akıl yürütme, mantık, sıralama akıl yürütmesi ve optimizasyon problemlerini kapsıyor.
Bu buluş, yalnızca metinsel akıl yürütmeyle çözülmesi zor olan, örneğin belirsiz ortamlarda robotlar için yol oluşturma veya uluslararası tedarik zincirlerinde sevkiyat planlama gibi karmaşık görevlerde yapay zekânın problem çözme yeteneğini önemli ölçüde artırabilir.
"Bir dil modeline akıllıca kod kullanma yeteneği kazandırarak, zaten çok güçlü olan bir modeli daha da geliştirebiliriz," diyor Chen. Araştırmacılar şimdi CodeSteer'in yinelemeli yönlendirme sürecini hızlandırmak ve metinsel akıl yürütme ile kod üretimi arasında ayrı bir asistan olmadan geçiş yapabilen birleşik bir modeli nasıl ince ayar yapabileceklerini araştırmak için çalışıyor.