menu
close

OpenAI Memperkenalkan Keluarga GPT-4.1 untuk Mendominasi Pasaran AI Pengekodan

OpenAI telah melancarkan keluarga model baharu yang dinamakan GPT-4.1, termasuk versi standard, mini, dan nano, semuanya dioptimumkan untuk pengekodan dan pematuhan arahan dengan tetingkap konteks sebesar 1 juta token. Model eksklusif API ini mengatasi penawaran terdahulu OpenAI dalam penanda aras pengekodan, dengan model utama GPT-4.1 menunjukkan peningkatan 21% berbanding GPT-4o. Pelancaran ini hadir ketika persaingan semakin sengit dengan Google Gemini 2.5 Pro dan Claude 3.7 Sonnet dari Anthropic yang turut bersaing untuk menguasai ruang AI pengekodan.
OpenAI Memperkenalkan Keluarga GPT-4.1 untuk Mendominasi Pasaran AI Pengekodan

OpenAI telah melancarkan keluarga model baharu yang dinamakan GPT-4.1, termasuk GPT-4.1, GPT-4.1 mini, dan GPT-4.1 nano, yang kesemuanya cemerlang dalam pengekodan dan pematuhan arahan. Dilancarkan pada 14 April, model-model baharu ini ditawarkan secara eksklusif melalui antara muka pengaturcaraan aplikasi (API) OpenAI dan mengatasi model GPT-4o yang paling canggih milik syarikat itu dalam semua aspek.

Model-model ini menampilkan pemahaman konteks yang dipertingkatkan, menyokong sehingga 1 juta token (kira-kira 750,000 patah perkataan) dan dilengkapi dengan pengetahuan yang dikemas kini sehingga Jun 2024. Dalam penanda aras SWE-bench Verified, yang mengukur kemahiran kejuruteraan perisian dunia sebenar, GPT-4.1 berjaya menyiapkan 54.6% tugasan, berbanding 33.2% untuk GPT-4o. Ini mencerminkan peningkatan keupayaan model untuk meneroka repositori kod, menyiapkan tugasan, serta menghasilkan kod yang boleh dijalankan dan lulus ujian.

"Kami telah mengoptimumkan GPT-4.1 untuk kegunaan dunia sebenar berdasarkan maklum balas langsung bagi memperbaiki aspek yang paling penting kepada pembangun: pengekodan bahagian hadapan, mengurangkan suntingan berlebihan, mematuhi format dengan konsisten, mematuhi struktur dan susunan respons, penggunaan alat yang konsisten, dan banyak lagi," jelas jurucakap OpenAI. "Penambahbaikan ini membolehkan pembangun membina ejen yang jauh lebih baik dalam melaksanakan tugasan kejuruteraan perisian dunia sebenar."

Varian yang lebih kecil menawarkan kompromi prestasi-kos yang berbeza. GPT-4.1 mini dan nano lebih cekap dan pantas dengan sedikit pengorbanan dari segi ketepatan, di mana OpenAI menyatakan GPT-4.1 nano adalah model paling pantas dan murah pernah mereka hasilkan. Harga berbeza secara ketara mengikut model: GPT-4.1 berharga $2 bagi setiap sejuta token input dan $8 bagi setiap sejuta token output, GPT-4.1 mini ialah $0.40/sejuta token input dan $1.60/sejuta token output, manakala GPT-4.1 nano hanya $0.10/sejuta token input dan $0.40/sejuta token output.

Dalam penilaian di luar pengekodan, OpenAI menguji GPT-4.1 menggunakan Video-MME, yang mengukur keupayaan model memahami kandungan dalam video. GPT-4.1 mencapai ketepatan 72% dalam kategori video "panjang, tanpa sarikata", sekaligus menduduki tempat teratas dalam penanda aras ini.

Pelancaran ini sejajar dengan aspirasi lebih luas OpenAI dalam bidang pengekodan. Ketua Pegawai Kewangan OpenAI, Sarah Friar, baru-baru ini membincangkan visi syarikat untuk membangunkan "jurutera perisian ejen" yang mampu membangunkan keseluruhan aplikasi dari awal hingga akhir. "Ia benar-benar boleh membina aplikasi untuk anda — dan bukan sekadar membinanya, malah turut menjalankan jaminan kualiti, ujian pepijat, serta penulisan dokumentasi," kata Friar.

Ruang model AI pengekodan kini semakin kompetitif. Google Gemini 2.5 Pro kini mendahului penanda aras SWE-bench Verified dengan 63.8%, manakala Claude 3.7 Sonnet dari Anthropic mencatat 62.3% dalam mod standard dan sehingga 70.3% dalam mod pemikiran lanjutan. Walaupun penanda aras ini mengagumkan, OpenAI mengakui bahawa walaupun model terbaik hari ini masih bergelut dengan tugasan yang mudah bagi pakar. Banyak kajian menunjukkan model penjana kod sering gagal membaiki, malah kadangkala memperkenalkan, kerentanan keselamatan dan pepijat. GPT-4.1 juga menjadi kurang boleh dipercayai apabila semakin banyak token input yang perlu diproses.

Source: TechCrunch

Latest News