Model AI Vision Gagal Memahami Negasi, Berisiko Picu Kesalahan Medis

Peneliti MIT menemukan bahwa model vision-language (VLM) tidak mampu memahami kata-kata negasi seperti 'tidak' dan 'bukan', bahkan performanya setara dengan tebakan acak dalam pengujian. Kelemahan mendasar ini dapat menyebabkan kesalahan diagnosis serius di dunia medis, di mana membedakan kondisi yang ada dan tidak ada sangatlah penting. Tim peneliti yang dipimpin Kumail Alhamoud dan Marzyeh Ghassemi telah mengembangkan tolok ukur bernama NegBench untuk mengevaluasi dan meningkatkan model-model ini.

Sebuah studi terobosan dari MIT mengungkapkan kelemahan kritis pada model vision-language (VLM) yang dapat berdampak serius terhadap penggunaannya di bidang kesehatan dan lingkungan berisiko tinggi lainnya.

Dalam penelitian ini, para peneliti MIT menemukan bahwa VLM sangat rentan melakukan kesalahan dalam situasi nyata karena tidak memahami negasi — kata-kata seperti "tidak" dan "bukan" yang menandakan sesuatu itu salah atau tidak ada. "Kata-kata negasi tersebut dapat memberikan dampak yang sangat signifikan, dan jika kita menggunakan model ini secara membabi buta, kita bisa menghadapi konsekuensi yang katastrofik," ujar Kumail Alhamoud, mahasiswa pascasarjana MIT sekaligus penulis utama studi ini.

Para peneliti mencontohkan masalah ini dengan ilustrasi medis: Bayangkan seorang radiolog memeriksa rontgen dada dan menemukan pasien mengalami pembengkakan jaringan namun tidak mengalami pembesaran jantung. Dalam skenario seperti ini, model vision-language kemungkinan besar gagal membedakan kedua kondisi tersebut. Jika model secara keliru mengidentifikasi laporan dengan kedua kondisi sekaligus, implikasi diagnosisnya bisa sangat besar: pasien dengan pembengkakan jaringan dan pembesaran jantung kemungkinan mengalami masalah jantung, namun tanpa pembesaran jantung, penyebab dasarnya bisa sangat berbeda.

Saat menguji kemampuan model vision-language dalam mengenali negasi pada keterangan gambar, para peneliti menemukan bahwa performa model seringkali hanya sebaik tebakan acak. Berdasarkan temuan ini, tim peneliti membuat dataset gambar dengan keterangan yang mengandung kata negasi untuk mendeskripsikan objek yang tidak ada. Mereka menunjukkan bahwa melatih ulang model vision-language dengan dataset ini meningkatkan performa saat model diminta mencari gambar yang tidak mengandung objek tertentu. Akurasi juga meningkat pada tugas menjawab pertanyaan pilihan ganda dengan keterangan negasi. Namun, para peneliti menegaskan masih diperlukan upaya lebih lanjut untuk mengatasi akar permasalahan ini.

"Ini tidak hanya terjadi pada kata-kata seperti 'tidak' dan 'bukan'. Apapun cara Anda mengekspresikan negasi atau pengecualian, model akan tetap mengabaikannya," kata Alhamoud. Hal ini konsisten pada seluruh VLM yang mereka uji. Permasalahan mendasar berasal dari cara model-model ini dilatih. "Keterangan gambar biasanya menyatakan apa yang ada di dalam gambar — mereka adalah label positif. Dan di situlah letak masalahnya. Tidak ada yang melihat gambar anjing melompati pagar lalu memberi keterangan 'seekor anjing melompati pagar, tanpa helikopter'," jelas Marzyeh Ghassemi, penulis senior studi ini. Karena dataset gambar-keterangan tidak mengandung contoh negasi, VLM tidak pernah belajar mengenalinya.

"Jika hal mendasar seperti negasi saja bermasalah, kita seharusnya tidak menggunakan model vision/language besar seperti sekarang — tanpa evaluasi yang intensif," kata Ghassemi, profesor di Departemen Teknik Elektro dan Ilmu Komputer serta anggota Institute of Medical Engineering Sciences. Penelitian yang akan dipresentasikan di Conference on Computer Vision and Pattern Recognition ini dilakukan oleh tim yang melibatkan peneliti dari MIT, OpenAI, dan Oxford University.

Temuan ini memiliki implikasi besar untuk bidang-bidang berisiko tinggi seperti pemantauan keselamatan dan layanan kesehatan. Karya para peneliti, termasuk pengembangan NegBench — tolok ukur komprehensif untuk mengevaluasi model vision-language pada tugas-tugas negasi — merupakan langkah penting menuju sistem AI yang lebih tangguh dan mampu memahami bahasa secara lebih mendalam, dengan dampak krusial bagi diagnosis medis dan pencarian konten semantik.

Model AI Vision Gagal Memahami Negasi, Berisiko Picu Kesalahan Medis

Latest News

Doubao AI dari ByteDance Kini Hadirkan Bantuan Video Real-Time

OnePlus Tinggalkan Alert Slider demi Plus Key Berbasis AI

Raksasa Teknologi Jerman Bersatu untuk Bangun Gigafactory AI Didukung Uni Eropa

Jaksa AS Selidiki Builder.ai Sebelum Startup AI Senilai $1,5 Miliar Ambruk

Dana $1,8 Triliun Norwegia Wajibkan Penggunaan AI bagi Seluruh Karyawan

OpenTools.ai Luncurkan Pusat Berita AI untuk Profesional Teknologi

Google Perluas Kontrol Komputer Berbasis AI untuk Pengembang melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Transparan

Model AI Vision Gagal Memahami Negasi, Berisiko Picu Kesalahan Medis

Related Articles

OnePlus Tinggalkan Alert Slider demi Plus Key Berbasis AI

Raksasa Teknologi Jerman Bersatu untuk Bangun Gigafactory AI Didukung Uni Eropa

Jaksa AS Selidiki Builder.ai Sebelum Startup AI Senilai $1,5 Miliar Ambruk

Latest News

Doubao AI dari ByteDance Kini Hadirkan Bantuan Video Real-Time

OnePlus Tinggalkan Alert Slider demi Plus Key Berbasis AI

Raksasa Teknologi Jerman Bersatu untuk Bangun Gigafactory AI Didukung Uni Eropa

Jaksa AS Selidiki Builder.ai Sebelum Startup AI Senilai $1,5 Miliar Ambruk

Dana $1,8 Triliun Norwegia Wajibkan Penggunaan AI bagi Seluruh Karyawan

OpenTools.ai Luncurkan Pusat Berita AI untuk Profesional Teknologi

Google Perluas Kontrol Komputer Berbasis AI untuk Pengembang melalui Gemini

Google Tingkatkan Model Gemini dengan Ringkasan Pemikiran yang Transparan