Pelatih AI dari MIT Tingkatkan Kemampuan Pemecahan Masalah Model Bahasa

Peneliti MIT telah mengembangkan CodeSteer, asisten cerdas yang membimbing model bahasa besar untuk beralih antara generasi teks dan kode hingga berhasil menjawab pertanyaan kompleks. Sistem ini meningkatkan akurasi LLM pada tugas simbolik seperti soal matematika dan penalaran spasial lebih dari 30%, memungkinkan model yang kurang canggih mengungguli model yang lebih maju. Terobosan ini berpotensi meningkatkan kemampuan pemecahan masalah AI untuk tugas kompleks di bidang robotika, manajemen rantai pasok, dan bidang lain yang membutuhkan penalaran komputasi presisi.

Model bahasa besar (LLM) unggul dalam memahami konteks dan memberikan jawaban logis melalui penalaran tekstual. Namun, mereka sering kesulitan dalam tugas komputasi yang lebih baik diselesaikan menggunakan kode, seperti membandingkan angka desimal atau memecahkan masalah optimasi.

Untuk mengatasi keterbatasan ini, peneliti dari MIT telah mengembangkan CodeSteer, asisten cerdas yang berperan sebagai pelatih bagi model bahasa besar, membimbing mereka untuk beralih antara pembuatan teks dan kode hingga berhasil menjawab pertanyaan.

"Kami terinspirasi oleh manusia. Dalam olahraga, seorang pelatih mungkin tidak lebih hebat dari atlet bintang di tim, tetapi pelatih tetap dapat memberikan saran yang membantu untuk membimbing atlet. Metode pembimbingan ini juga bekerja pada LLM," jelas Yongchao Chen, mahasiswa pascasarjana di Harvard dan MIT yang terlibat dalam proyek ini.

CodeSteer, yang merupakan LLM lebih kecil dan telah disesuaikan pada model Llama-3-8B, bekerja dengan meninjau pertanyaan dan menentukan apakah teks atau kode lebih sesuai untuk menyelesaikan masalah. Kemudian, CodeSteer menghasilkan prompt untuk LLM yang lebih besar, membimbingnya menggunakan metode yang tepat. Jika jawabannya belum benar, CodeSteer terus memberikan prompt agar LLM mencoba pendekatan berbeda hingga mencapai solusi yang benar.

Para peneliti menemukan bahwa menambahkan CodeSteer ke GPT-4o meningkatkan akurasi pada tugas simbolik lebih dari 30%, menaikkan skor rata-rata performa dari 53,3 menjadi 86,4 pada 37 tugas. Peningkatan ini membuatnya mampu mengungguli model yang lebih canggih seperti OpenAI o1 (82,7) dan DeepSeek R1 (76,8). Menariknya, CodeSteer juga menunjukkan kemampuan generalisasi yang kuat, memberikan peningkatan performa rata-rata 41,8% saat diterapkan pada model lain seperti Claude, Mistral, dan GPT-3.5.

Untuk mengembangkan dan menguji CodeSteer, para peneliti menciptakan SymBench, tolok ukur komprehensif yang terdiri dari 37 tugas simbolik dengan tingkat kompleksitas yang dapat diatur. Tugas-tugas ini mencakup matematika, penalaran spasial, logika, penalaran urutan, dan masalah optimasi.

Terobosan ini berpotensi meningkatkan kemampuan pemecahan masalah AI untuk tugas-tugas kompleks yang sulit diselesaikan hanya dengan penalaran tekstual, seperti menghasilkan jalur untuk robot di lingkungan yang tidak pasti atau menjadwalkan pengiriman dalam rantai pasok internasional.

"Dengan menambah kemampuan LLM untuk secara cerdas menggunakan kode, kita dapat mengambil model yang sudah sangat kuat dan meningkatkan performanya lebih jauh lagi," ujar Chen. Para peneliti kini tengah berupaya menyederhanakan CodeSteer agar proses prompting iteratifnya lebih cepat serta mengeksplorasi cara menyempurnakan model terpadu yang dapat beralih antara penalaran tekstual dan pembuatan kode tanpa bergantung pada asisten terpisah.

Pelatih AI dari MIT Tingkatkan Kemampuan Pemecahan Masalah Model Bahasa

Latest News

OpenAI Satukan Alat AI dengan ChatGPT Agent untuk Tugas Otonom

OpenAI Akan Ubah ChatGPT Menjadi Pusat Belanja dengan Checkout Shopify

Otomatisasi AI Dorong Pertumbuhan Tech Mahindra di Tengah Tantangan Industri TI

xAI Luncurkan Pendamping AI Seksual di Tengah Kesepakatan dengan Pentagon

AI Google Kini Bisa Melakukan Panggilan Telepon untuk Anda

Thinking Machines Lab Milik Murati Amankan Pendanaan $2 Miliar untuk Revolusi AI

S&P Global Luncurkan Metadata Siap-AI untuk Transformasi Analitik Keuangan

The Fed Mengadopsi AI untuk Riset Sambil Mengkaji Dampak Ekonominya

AWS Luncurkan Sistem Pendingin Khusus untuk Chip AI Generasi Terbaru

MIT Memetakan Hambatan Menuju Rekayasa Perangkat Lunak Berbasis AI

Pelatih AI dari MIT Tingkatkan Kemampuan Pemecahan Masalah Model Bahasa

Related Articles

OpenAI Satukan Alat AI dengan ChatGPT Agent untuk Tugas Otonom

OpenAI Akan Ubah ChatGPT Menjadi Pusat Belanja dengan Checkout Shopify

Otomatisasi AI Dorong Pertumbuhan Tech Mahindra di Tengah Tantangan Industri TI

xAI Luncurkan Pendamping AI Seksual di Tengah Kesepakatan dengan Pentagon

The Fed Mengadopsi AI untuk Riset Sambil Mengkaji Dampak Ekonominya

Latest News

OpenAI Satukan Alat AI dengan ChatGPT Agent untuk Tugas Otonom

OpenAI Akan Ubah ChatGPT Menjadi Pusat Belanja dengan Checkout Shopify

Otomatisasi AI Dorong Pertumbuhan Tech Mahindra di Tengah Tantangan Industri TI

xAI Luncurkan Pendamping AI Seksual di Tengah Kesepakatan dengan Pentagon

AI Google Kini Bisa Melakukan Panggilan Telepon untuk Anda

Thinking Machines Lab Milik Murati Amankan Pendanaan $2 Miliar untuk Revolusi AI

S&P Global Luncurkan Metadata Siap-AI untuk Transformasi Analitik Keuangan

The Fed Mengadopsi AI untuk Riset Sambil Mengkaji Dampak Ekonominya

AWS Luncurkan Sistem Pendingin Khusus untuk Chip AI Generasi Terbaru

MIT Memetakan Hambatan Menuju Rekayasa Perangkat Lunak Berbasis AI