Satu kajian baharu oleh penyelidik MIT telah mendedahkan kelemahan asas dalam model visi-bahasa (VLM) yang boleh membawa implikasi serius terhadap diagnostik perubatan dan aplikasi kritikal lain.
Pasukan penyelidik yang diketuai oleh Kumail Alhamoud dan penulis kanan Marzyeh Ghassemi dari Jabatan Kejuruteraan Elektrik dan Sains Komputer MIT mendapati bahawa sistem AI ini—yang semakin banyak digunakan untuk menganalisis imej perubatan—gagal memahami kata penafian seperti 'tidak' dan 'bukan' dalam pertanyaan.
Kelemahan ini menjadi sangat bermasalah dalam konteks perubatan. Sebagai contoh, apabila seorang pakar radiologi memeriksa X-ray dada yang menunjukkan bengkak tisu tanpa pembesaran jantung, penggunaan sistem AI untuk mencari kes serupa boleh membawa kepada diagnosis yang salah jika model tidak dapat membezakan antara kehadiran dan ketiadaan sesuatu keadaan.
"Kata penafian tersebut boleh memberi impak yang sangat besar, dan jika kita menggunakan model-model ini secara membuta tuli, kita mungkin berdepan akibat yang sangat buruk," tegas penulis utama Alhamoud. Apabila diuji keupayaan mereka mengenal pasti penafian dalam kapsyen imej, model-model ini tidak menunjukkan prestasi lebih baik daripada meneka secara rawak.
Bagi menangani masalah ini, para penyelidik membangunkan NegBench, satu penanda aras komprehensif dengan 79,000 contoh merangkumi 18 variasi tugasan yang melibatkan set data imej, video, dan perubatan. Penanda aras ini menilai dua keupayaan teras: mendapatkan imej berdasarkan pertanyaan berpenafian dan menjawab soalan aneka pilihan dengan kapsyen berpenafian.
Pasukan ini turut membina set data dengan contoh khusus penafian untuk melatih semula model-model ini, dan berjaya mencapai peningkatan 10% dalam ingatan (recall) untuk pertanyaan berpenafian serta lonjakan 28% dalam ketepatan menjawab soalan aneka pilihan dengan kapsyen berpenafian. Namun, mereka menegaskan bahawa lebih banyak usaha diperlukan untuk menangani punca utama masalah ini.
"Jika sesuatu yang asas seperti penafian pun bermasalah, kita tidak sepatutnya menggunakan model visi/bahasa berskala besar dalam banyak cara yang kita gunakan sekarang—tanpa penilaian yang teliti," tegas Ghassemi.
Kajian ini akan dibentangkan di Persidangan Visi Komputer dan Pengecaman Corak yang akan datang, menyoroti keperluan mendesak untuk sistem AI yang lebih mantap dalam aplikasi kritikal seperti penjagaan kesihatan.