menu
close

Sistem AI Medis Gagal Memahami Negasi dalam Analisis Gambar

Peneliti MIT menemukan bahwa model visi-bahasa yang digunakan dalam pencitraan medis tidak mampu memahami kata-kata negasi seperti 'tidak' dan 'bukan', sehingga berpotensi menyebabkan salah diagnosis yang berbahaya. Saat diuji pada tugas negasi, sistem AI ini tidak menunjukkan performa lebih baik dari tebakan acak, menimbulkan kekhawatiran serius terkait penerapannya di lingkungan layanan kesehatan. Para peneliti telah mengembangkan tolok ukur baru bernama NegBench dan mengusulkan solusi yang dapat meningkatkan pemahaman negasi hingga 28%.
Sistem AI Medis Gagal Memahami Negasi dalam Analisis Gambar

Sebuah kelemahan krusial pada sistem kecerdasan buatan yang digunakan untuk menganalisis gambar medis dapat membahayakan pasien, menurut penelitian terbaru dari MIT yang dipublikasikan pekan ini.

Studi yang dipimpin oleh mahasiswa pascasarjana Kumail Alhamoud dan Associate Professor Marzyeh Ghassemi ini mengungkapkan bahwa model visi-bahasa (VLM) — sistem AI yang banyak digunakan di lingkungan layanan kesehatan — secara mendasar gagal memahami kata-kata negasi seperti 'tidak' dan 'bukan' saat menganalisis gambar medis.

"Kata-kata negasi tersebut dapat berdampak sangat signifikan, dan jika kita menggunakan model ini secara membabi buta, kita bisa menghadapi konsekuensi yang sangat fatal," ujar Alhamoud, penulis utama studi tersebut.

Para peneliti mendemonstrasikan masalah ini melalui contoh klinis: jika seorang radiolog memeriksa rontgen dada yang menunjukkan pembengkakan jaringan namun tidak ada pembesaran jantung, sistem AI bisa saja salah mengambil kasus yang memiliki kedua kondisi tersebut, sehingga berpotensi menyebabkan diagnosis yang sama sekali berbeda. Saat diuji secara formal, model AI ini tidak menunjukkan performa lebih baik dari tebakan acak pada tugas-tugas negasi.

Untuk mengatasi keterbatasan kritis ini, tim peneliti telah mengembangkan NegBench, sebuah kerangka evaluasi komprehensif yang mencakup 18 variasi tugas dan 79.000 contoh dari dataset gambar, video, dan medis. Solusi yang mereka usulkan melibatkan pelatihan ulang VLM dengan dataset khusus yang berisi jutaan keterangan gambar bernuansa negasi, yang telah menunjukkan hasil menjanjikan — meningkatkan recall pada kueri negasi sebesar 10% dan meningkatkan akurasi pada soal pilihan ganda dengan keterangan negasi hingga 28%.

"Jika sesuatu yang fundamental seperti negasi saja bermasalah, kita seharusnya tidak menggunakan model visi/bahasa besar dalam banyak cara seperti yang kita lakukan sekarang — tanpa evaluasi yang intensif," tegas Ghassemi, menyoroti perlunya penilaian cermat sebelum menerapkan sistem ini di lingkungan medis yang berisiko tinggi.

Penelitian ini, yang juga melibatkan kolaborator dari OpenAI dan Oxford University, akan dipresentasikan pada Conference on Computer Vision and Pattern Recognition mendatang. Tim peneliti telah membuat tolok ukur dan kode mereka tersedia secara publik untuk membantu mengatasi isu keselamatan AI yang kritis ini.

Source:

Latest News