Model Visi AI Gagal Ujian Penting Penafian dalam Pengimejan Perubatan

Penyelidik MIT telah mendapati bahawa model visi-bahasa, yang digunakan secara meluas dalam analisis imej perubatan, tidak mampu memahami kata penafian seperti 'tidak' dan 'bukan'. Kelemahan kritikal ini boleh menyebabkan kesilapan diagnostik serius apabila sistem AI ini digunakan untuk mendapatkan imej perubatan berdasarkan kriteria tertentu. Kajian yang diterbitkan pada 14 Mei 2025 ini memperkenalkan NegBench, penanda aras baharu untuk menilai dan memperbaiki kefahaman penafian dalam sistem visi AI.

Satu kajian baharu oleh penyelidik MIT telah mendedahkan kelemahan asas dalam model visi-bahasa (VLM) yang boleh membawa implikasi serius terhadap diagnostik perubatan dan aplikasi kritikal lain.

Pasukan penyelidik yang diketuai oleh Kumail Alhamoud dan penulis kanan Marzyeh Ghassemi dari Jabatan Kejuruteraan Elektrik dan Sains Komputer MIT mendapati bahawa sistem AI ini—yang semakin banyak digunakan untuk menganalisis imej perubatan—gagal memahami kata penafian seperti 'tidak' dan 'bukan' dalam pertanyaan.

Kelemahan ini menjadi sangat bermasalah dalam konteks perubatan. Sebagai contoh, apabila seorang pakar radiologi memeriksa X-ray dada yang menunjukkan bengkak tisu tanpa pembesaran jantung, penggunaan sistem AI untuk mencari kes serupa boleh membawa kepada diagnosis yang salah jika model tidak dapat membezakan antara kehadiran dan ketiadaan sesuatu keadaan.

"Kata penafian tersebut boleh memberi impak yang sangat besar, dan jika kita menggunakan model-model ini secara membuta tuli, kita mungkin berdepan akibat yang sangat buruk," tegas penulis utama Alhamoud. Apabila diuji keupayaan mereka mengenal pasti penafian dalam kapsyen imej, model-model ini tidak menunjukkan prestasi lebih baik daripada meneka secara rawak.

Bagi menangani masalah ini, para penyelidik membangunkan NegBench, satu penanda aras komprehensif dengan 79,000 contoh merangkumi 18 variasi tugasan yang melibatkan set data imej, video, dan perubatan. Penanda aras ini menilai dua keupayaan teras: mendapatkan imej berdasarkan pertanyaan berpenafian dan menjawab soalan aneka pilihan dengan kapsyen berpenafian.

Pasukan ini turut membina set data dengan contoh khusus penafian untuk melatih semula model-model ini, dan berjaya mencapai peningkatan 10% dalam ingatan (recall) untuk pertanyaan berpenafian serta lonjakan 28% dalam ketepatan menjawab soalan aneka pilihan dengan kapsyen berpenafian. Namun, mereka menegaskan bahawa lebih banyak usaha diperlukan untuk menangani punca utama masalah ini.

"Jika sesuatu yang asas seperti penafian pun bermasalah, kita tidak sepatutnya menggunakan model visi/bahasa berskala besar dalam banyak cara yang kita gunakan sekarang—tanpa penilaian yang teliti," tegas Ghassemi.

Kajian ini akan dibentangkan di Persidangan Visi Komputer dan Pengecaman Corak yang akan datang, menyoroti keperluan mendesak untuk sistem AI yang lebih mantap dalam aplikasi kritikal seperti penjagaan kesihatan.

Source:

Model Visi AI Gagal Ujian Penting Penafian dalam Pengimejan Perubatan

Latest News

Doubao AI oleh ByteDance Kini Menawarkan Bantuan Video Masa Nyata

OnePlus Gantikan Alert Slider dengan Butang Plus Berkuasa AI

Gergasi Teknologi Jerman Bersatu untuk Gigafactory AI Disokong EU

Pendakwa Raya AS Siasat Builder.ai Sebelum Startup AI Bernilai $1.5B Tumbang

Dana $1.8 Trilion Norway Jadikan AI Wajib untuk Semua Kakitangan

OpenTools.ai Lancar Hab Berita AI untuk Profesional Teknologi

Google Meluaskan Kawalan Komputer Berasaskan AI kepada Pembangun melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Telus

Model Visi AI Gagal Ujian Penting Penafian dalam Pengimejan Perubatan

Related Articles

Model Claude 4 Anthropic Tetapkan Penanda Aras Baharu AI Pengekodan

Penganalisis Kekal Penarafan 'Beli Sederhana' untuk CCC Intelligent Solutions

NASA Dedahkan Strategi AI Berani untuk Dekad Seterusnya Eksplorasi Angkasa

Bekas Saintis OpenAI Rancang Bina Bunker untuk Dunia Pasca-AGI

Latest News

Doubao AI oleh ByteDance Kini Menawarkan Bantuan Video Masa Nyata

OnePlus Gantikan Alert Slider dengan Butang Plus Berkuasa AI

Gergasi Teknologi Jerman Bersatu untuk Gigafactory AI Disokong EU

Pendakwa Raya AS Siasat Builder.ai Sebelum Startup AI Bernilai $1.5B Tumbang

Dana $1.8 Trilion Norway Jadikan AI Wajib untuk Semua Kakitangan

OpenTools.ai Lancar Hab Berita AI untuk Profesional Teknologi

Google Meluaskan Kawalan Komputer Berasaskan AI kepada Pembangun melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Telus