Sebuah studi baru dari peneliti MIT mengungkapkan cacat mendasar pada model vision-language (VLM) yang dapat berdampak serius pada diagnostik medis dan aplikasi penting lainnya.
Tim peneliti yang dipimpin oleh Kumail Alhamoud dan penulis senior Marzyeh Ghassemi dari Departemen Teknik Elektro dan Ilmu Komputer MIT menemukan bahwa sistem AI ini—yang semakin banyak digunakan untuk menganalisis citra medis—gagal memahami kata negasi seperti 'tidak' dan 'bukan' dalam permintaan pencarian.
Keterbatasan ini menjadi sangat bermasalah dalam konteks medis. Sebagai contoh, ketika seorang radiolog memeriksa rontgen dada yang menunjukkan pembengkakan jaringan tanpa pembesaran jantung, penggunaan sistem AI untuk mencari kasus serupa dapat menyebabkan diagnosis yang salah jika model tidak dapat membedakan antara keberadaan dan ketiadaan kondisi tertentu.
"Kata-kata negasi tersebut dapat memberikan dampak yang sangat signifikan, dan jika kita hanya menggunakan model-model ini secara membabi buta, kita bisa menghadapi konsekuensi yang katastrofik," ujar Alhamoud, penulis utama. Saat diuji dalam mengidentifikasi negasi pada keterangan gambar, model-model tersebut tidak menunjukkan performa lebih baik dari sekadar menebak secara acak.
Untuk mengatasi masalah ini, para peneliti mengembangkan NegBench, tolok ukur komprehensif dengan 79.000 contoh pada 18 variasi tugas yang mencakup dataset gambar, video, dan medis. Tolok ukur ini mengevaluasi dua kemampuan inti: mengambil gambar berdasarkan permintaan negasi dan menjawab pertanyaan pilihan ganda dengan keterangan bergaya negasi.
Tim juga membuat dataset dengan contoh khusus negasi untuk melatih ulang model-model ini, sehingga menghasilkan peningkatan recall sebesar 10% pada permintaan negasi dan peningkatan akurasi sebesar 28% pada pertanyaan pilihan ganda dengan keterangan negasi. Namun, mereka menegaskan bahwa masih diperlukan upaya lebih lanjut untuk mengatasi akar permasalahan ini.
"Jika sesuatu yang fundamental seperti negasi saja bermasalah, kita seharusnya tidak menggunakan model vision/language besar seperti yang kita lakukan sekarang—tanpa evaluasi yang intensif," tegas Ghassemi.
Penelitian ini akan dipresentasikan pada Konferensi Computer Vision and Pattern Recognition mendatang, menyoroti kebutuhan mendesak akan sistem AI yang lebih andal untuk aplikasi kritis seperti layanan kesehatan.