Model AI Vision Gagal Uji Negasi Kritis dalam Pencitraan Medis

Peneliti MIT menemukan bahwa model vision-language, yang banyak digunakan dalam analisis citra medis, tidak mampu memahami kata negasi seperti 'tidak' dan 'bukan'. Keterbatasan kritis ini dapat menyebabkan kesalahan diagnosis serius ketika sistem AI ini diminta mengambil gambar medis dengan kriteria tertentu. Studi yang dipublikasikan pada 14 Mei 2025 ini memperkenalkan NegBench, tolok ukur baru untuk mengevaluasi dan meningkatkan pemahaman negasi pada sistem AI vision.

Sebuah studi baru dari peneliti MIT mengungkapkan cacat mendasar pada model vision-language (VLM) yang dapat berdampak serius pada diagnostik medis dan aplikasi penting lainnya.

Tim peneliti yang dipimpin oleh Kumail Alhamoud dan penulis senior Marzyeh Ghassemi dari Departemen Teknik Elektro dan Ilmu Komputer MIT menemukan bahwa sistem AI ini—yang semakin banyak digunakan untuk menganalisis citra medis—gagal memahami kata negasi seperti 'tidak' dan 'bukan' dalam permintaan pencarian.

Keterbatasan ini menjadi sangat bermasalah dalam konteks medis. Sebagai contoh, ketika seorang radiolog memeriksa rontgen dada yang menunjukkan pembengkakan jaringan tanpa pembesaran jantung, penggunaan sistem AI untuk mencari kasus serupa dapat menyebabkan diagnosis yang salah jika model tidak dapat membedakan antara keberadaan dan ketiadaan kondisi tertentu.

"Kata-kata negasi tersebut dapat memberikan dampak yang sangat signifikan, dan jika kita hanya menggunakan model-model ini secara membabi buta, kita bisa menghadapi konsekuensi yang katastrofik," ujar Alhamoud, penulis utama. Saat diuji dalam mengidentifikasi negasi pada keterangan gambar, model-model tersebut tidak menunjukkan performa lebih baik dari sekadar menebak secara acak.

Untuk mengatasi masalah ini, para peneliti mengembangkan NegBench, tolok ukur komprehensif dengan 79.000 contoh pada 18 variasi tugas yang mencakup dataset gambar, video, dan medis. Tolok ukur ini mengevaluasi dua kemampuan inti: mengambil gambar berdasarkan permintaan negasi dan menjawab pertanyaan pilihan ganda dengan keterangan bergaya negasi.

Tim juga membuat dataset dengan contoh khusus negasi untuk melatih ulang model-model ini, sehingga menghasilkan peningkatan recall sebesar 10% pada permintaan negasi dan peningkatan akurasi sebesar 28% pada pertanyaan pilihan ganda dengan keterangan negasi. Namun, mereka menegaskan bahwa masih diperlukan upaya lebih lanjut untuk mengatasi akar permasalahan ini.

"Jika sesuatu yang fundamental seperti negasi saja bermasalah, kita seharusnya tidak menggunakan model vision/language besar seperti yang kita lakukan sekarang—tanpa evaluasi yang intensif," tegas Ghassemi.

Penelitian ini akan dipresentasikan pada Konferensi Computer Vision and Pattern Recognition mendatang, menyoroti kebutuhan mendesak akan sistem AI yang lebih andal untuk aplikasi kritis seperti layanan kesehatan.

Source:

Model AI Vision Gagal Uji Negasi Kritis dalam Pencitraan Medis

Latest News

Doubao AI dari ByteDance Kini Hadirkan Bantuan Video Real-Time

OnePlus Tinggalkan Alert Slider demi Plus Key Berbasis AI

Raksasa Teknologi Jerman Bersatu untuk Bangun Gigafactory AI Didukung Uni Eropa

Jaksa AS Selidiki Builder.ai Sebelum Startup AI Senilai $1,5 Miliar Ambruk

Dana $1,8 Triliun Norwegia Wajibkan Penggunaan AI bagi Seluruh Karyawan

OpenTools.ai Luncurkan Pusat Berita AI untuk Profesional Teknologi

Google Perluas Kontrol Komputer Berbasis AI untuk Pengembang melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Transparan

Model AI Vision Gagal Uji Negasi Kritis dalam Pencitraan Medis

Related Articles

Model Claude 4 dari Anthropic Cetak Rekor Baru dalam Benchmark Kode AI

Analis Pertahankan Rating 'Moderate Buy' untuk CCC Intelligent Solutions

NASA Mengungkap Strategi AI Berani untuk Dekade Eksplorasi Luar Angkasa Berikutnya

Mantan Ilmuwan OpenAI Rencanakan Bunker untuk Dunia Pasca-AGI

Latest News

Doubao AI dari ByteDance Kini Hadirkan Bantuan Video Real-Time

OnePlus Tinggalkan Alert Slider demi Plus Key Berbasis AI

Raksasa Teknologi Jerman Bersatu untuk Bangun Gigafactory AI Didukung Uni Eropa

Jaksa AS Selidiki Builder.ai Sebelum Startup AI Senilai $1,5 Miliar Ambruk

Dana $1,8 Triliun Norwegia Wajibkan Penggunaan AI bagi Seluruh Karyawan

OpenTools.ai Luncurkan Pusat Berita AI untuk Profesional Teknologi

Google Perluas Kontrol Komputer Berbasis AI untuk Pengembang melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Transparan