Model Visi AI Gagal Memahami Penafian, Berisiko Menyebabkan Kesilapan Perubatan

Penyelidik MIT telah mendapati bahawa model visi-bahasa (VLM) tidak dapat memahami kata penafian seperti 'tidak' dan 'bukan', malah prestasinya tidak lebih baik daripada meneka secara rawak dalam ujian. Kelemahan asas ini boleh membawa kepada kesilapan diagnosis yang serius dalam bidang penjagaan kesihatan, di mana membezakan antara keadaan yang hadir dan yang tiada adalah sangat kritikal. Pasukan penyelidik yang diketuai oleh Kumail Alhamoud dan Marzyeh Ghassemi telah membangunkan penanda aras bernama NegBench untuk menilai dan memperbaiki model-model ini.

Satu kajian terobosan oleh MIT telah mendedahkan kelemahan kritikal dalam model visi-bahasa (VLM) yang boleh memberi implikasi serius terhadap penggunaannya dalam penjagaan kesihatan dan persekitaran berisiko tinggi yang lain.

Dalam kajian ini, penyelidik MIT mendapati bahawa VLM sangat mudah melakukan kesilapan dalam situasi dunia sebenar kerana mereka tidak memahami penafian — kata-kata seperti "tidak" dan "bukan" yang menentukan apa yang palsu atau tidak wujud. "Kata-kata penafian ini boleh memberi kesan yang sangat besar, dan jika kita menggunakan model-model ini secara membuta tuli, kita mungkin berdepan akibat yang buruk," kata Kumail Alhamoud, pelajar siswazah MIT dan penulis utama kajian ini.

Para penyelidik menggambarkan masalah ini dengan contoh perubatan: Bayangkan seorang pakar radiologi memeriksa X-ray dada dan mendapati pesakit mengalami bengkak pada tisu tetapi tidak mempunyai jantung yang membesar. Dalam situasi sebegini, model visi-bahasa mungkin gagal membezakan antara kedua-dua keadaan ini. Jika model tersilap mengenal pasti laporan dengan kedua-dua keadaan, implikasi diagnosis boleh menjadi besar: pesakit dengan bengkak tisu dan jantung membesar mungkin mempunyai masalah berkaitan jantung, tetapi tanpa jantung membesar, terdapat beberapa punca asas yang berbeza.

Apabila menguji keupayaan model visi-bahasa mengenal pasti penafian dalam kapsyen imej, penyelidik mendapati model-model ini sering berprestasi setaraf dengan meneka secara rawak. Berdasarkan penemuan ini, pasukan tersebut membina set data imej dengan kapsyen yang mengandungi kata penafian yang menerangkan objek yang tiada. Mereka menunjukkan bahawa melatih semula model visi-bahasa dengan set data ini meningkatkan prestasi apabila model diminta mendapatkan imej yang tidak mengandungi objek tertentu. Ia juga meningkatkan ketepatan dalam menjawab soalan aneka pilihan dengan kapsyen berunsur penafian. Namun, para penyelidik menegaskan bahawa lebih banyak usaha diperlukan untuk menangani punca utama masalah ini.

"Ini bukan hanya berlaku untuk kata seperti 'tidak' dan 'bukan'. Tidak kira bagaimana anda menyatakan penafian atau pengecualian, model-model ini akan mengabaikannya," kata Alhamoud. Ini konsisten dalam setiap VLM yang mereka uji. Isu asas berpunca daripada cara model-model ini dilatih. "Kapsyen menerangkan apa yang ada dalam imej — ia adalah label positif. Dan itulah sebenarnya masalah utama. Tiada siapa melihat imej anjing melompat pagar dan menulis kapsyen 'seekor anjing melompat pagar, tanpa helikopter'," jelas penulis kanan Marzyeh Ghassemi. Oleh kerana set data imej-kapsyen tidak mengandungi contoh penafian, VLM tidak pernah belajar mengenal pasti penafian.

"Jika sesuatu yang asas seperti penafian pun bermasalah, kita tidak sepatutnya menggunakan model visi/bahasa besar dalam banyak cara seperti yang kita lakukan sekarang — tanpa penilaian yang teliti," kata Ghassemi, profesor madya di Jabatan Kejuruteraan Elektrik dan Sains Komputer dan ahli Institut Sains Kejuruteraan Perubatan. Kajian ini, yang akan dibentangkan di Persidangan Penglihatan Komputer dan Pengecaman Corak, dijalankan oleh pasukan termasuk penyelidik dari MIT, OpenAI, dan Universiti Oxford.

Penemuan ini mempunyai implikasi besar untuk bidang berisiko tinggi seperti pemantauan keselamatan dan penjagaan kesihatan. Usaha penyelidik, termasuk pembangunan NegBench, iaitu penanda aras komprehensif untuk menilai model visi-bahasa dalam tugasan khusus penafian, mewakili langkah penting ke arah sistem AI yang lebih mantap dan mampu memahami bahasa secara lebih halus, dengan implikasi kritikal untuk diagnosis perubatan dan pencarian kandungan semantik.

Model Visi AI Gagal Memahami Penafian, Berisiko Menyebabkan Kesilapan Perubatan

Latest News

Doubao AI oleh ByteDance Kini Menawarkan Bantuan Video Masa Nyata

OnePlus Gantikan Alert Slider dengan Butang Plus Berkuasa AI

Gergasi Teknologi Jerman Bersatu untuk Gigafactory AI Disokong EU

Pendakwa Raya AS Siasat Builder.ai Sebelum Startup AI Bernilai $1.5B Tumbang

Dana $1.8 Trilion Norway Jadikan AI Wajib untuk Semua Kakitangan

OpenTools.ai Lancar Hab Berita AI untuk Profesional Teknologi

Google Meluaskan Kawalan Komputer Berasaskan AI kepada Pembangun melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Telus

Model Visi AI Gagal Memahami Penafian, Berisiko Menyebabkan Kesilapan Perubatan

Related Articles

OnePlus Gantikan Alert Slider dengan Butang Plus Berkuasa AI

Gergasi Teknologi Jerman Bersatu untuk Gigafactory AI Disokong EU

Pendakwa Raya AS Siasat Builder.ai Sebelum Startup AI Bernilai $1.5B Tumbang

Latest News

Doubao AI oleh ByteDance Kini Menawarkan Bantuan Video Masa Nyata

OnePlus Gantikan Alert Slider dengan Butang Plus Berkuasa AI

Gergasi Teknologi Jerman Bersatu untuk Gigafactory AI Disokong EU

Pendakwa Raya AS Siasat Builder.ai Sebelum Startup AI Bernilai $1.5B Tumbang

Dana $1.8 Trilion Norway Jadikan AI Wajib untuk Semua Kakitangan

OpenTools.ai Lancar Hab Berita AI untuk Profesional Teknologi

Google Meluaskan Kawalan Komputer Berasaskan AI kepada Pembangun melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Telus