Model bahasa besar (LLM) cemerlang dalam memahami konteks dan memberikan jawapan logik melalui penaakulan teks. Namun, ia sering menghadapi kesukaran dalam tugasan pengiraan yang lebih sesuai diselesaikan menggunakan kod, seperti membandingkan nombor perpuluhan atau menyelesaikan masalah pengoptimuman.
Bagi mengatasi kekangan ini, penyelidik dari MIT telah membangunkan CodeSteer, pembantu pintar yang bertindak sebagai jurulatih untuk model bahasa besar, membimbing mereka untuk bertukar antara penjanaan teks dan kod sehingga berjaya menjawab sesuatu soalan.
"Kami mendapat inspirasi daripada manusia. Dalam sukan, jurulatih mungkin tidak lebih hebat daripada atlet bintang dalam pasukan, tetapi jurulatih masih boleh memberi cadangan berguna untuk membimbing atlet. Kaedah bimbingan ini juga berkesan untuk LLM," jelas Yongchao Chen, pelajar siswazah di Harvard dan MIT yang terlibat dalam projek ini.
CodeSteer, yang sendiri merupakan LLM lebih kecil yang ditala halus berasaskan model Llama-3-8B, berfungsi dengan menyemak soalan dan menentukan sama ada teks atau kod lebih sesuai untuk menyelesaikan masalah tersebut. Ia kemudian menjana arahan untuk LLM yang lebih besar, membimbingnya menggunakan kaedah yang tepat. Jika jawapan tidak betul, CodeSteer akan terus memberi arahan kepada LLM untuk mencuba pendekatan berbeza sehingga mendapat penyelesaian yang betul.
Penyelidik mendapati bahawa dengan menambah CodeSteer pada GPT-4o, ketepatan dalam tugasan simbolik meningkat lebih 30%, menaikkan skor purata prestasi daripada 53.3 kepada 86.4 merentasi 37 tugasan. Peningkatan ini membolehkan ia mengatasi model yang lebih maju seperti OpenAI o1 (82.7) dan DeepSeek R1 (76.8). Menariknya, CodeSteer juga menunjukkan kebolehan generalisasi yang kukuh, memberikan peningkatan prestasi purata 41.8% apabila digunakan pada model lain seperti Claude, Mistral, dan GPT-3.5.
Untuk membangunkan dan menguji CodeSteer, penyelidik mencipta SymBench, penanda aras komprehensif yang merangkumi 37 tugasan simbolik dengan tahap kerumitan boleh laras. Tugasan ini meliputi matematik, penaakulan ruang, logik, penaakulan susunan, dan masalah pengoptimuman.
Pencapaian ini berpotensi mempertingkatkan keupayaan AI menyelesaikan masalah untuk tugasan kompleks yang sukar diselesaikan dengan penaakulan teks semata-mata, seperti menjana laluan untuk robot dalam persekitaran tidak menentu atau menjadualkan penghantaran dalam rantaian bekalan antarabangsa.
"Dengan menambah keupayaan menggunakan kod secara pintar pada LLM, kita boleh mengambil model yang sudah sangat kuat dan meningkatkan prestasinya dengan lebih jauh," kata Chen. Penyelidik kini sedang berusaha memperkemas CodeSteer untuk mempercepatkan proses arahan berulang dan meneroka cara menala halus model bersatu yang boleh bertukar antara penaakulan teks dan penjanaan kod tanpa bergantung pada pembantu berasingan.