menu
close

Sistem AI Perubatan Gagal Memahami Penafian dalam Analisis Imej

Penyelidik MIT telah menemui bahawa model visi-bahasa yang digunakan dalam pengimejan perubatan tidak dapat memahami kata penafian seperti 'tidak' dan 'bukan', yang berpotensi membawa kepada salah diagnosis yang berbahaya. Apabila diuji dalam tugasan penafian, sistem AI ini berprestasi tidak lebih baik daripada meneka secara rawak, menimbulkan kebimbangan serius tentang penggunaannya dalam bidang penjagaan kesihatan. Penyelidik telah membangunkan penanda aras baharu yang dipanggil NegBench dan mencadangkan penyelesaian yang boleh meningkatkan pemahaman penafian sehingga 28%.
Sistem AI Perubatan Gagal Memahami Penafian dalam Analisis Imej

Satu kelemahan kritikal dalam sistem kecerdasan buatan yang digunakan untuk menganalisis imej perubatan boleh membahayakan pesakit, menurut penyelidikan baharu dari MIT yang diterbitkan minggu ini.

Kajian yang diketuai oleh pelajar siswazah Kumail Alhamoud dan Profesor Madya Marzyeh Ghassemi ini mendedahkan bahawa model visi-bahasa (VLM) – sistem AI yang digunakan secara meluas dalam persekitaran penjagaan kesihatan – secara asasnya gagal memahami kata penafian seperti 'tidak' dan 'bukan' ketika menganalisis imej perubatan.

"Kata penafian itu boleh memberi kesan yang sangat besar, dan jika kita hanya menggunakan model-model ini secara membuta tuli, kita mungkin berdepan akibat yang sangat buruk," tegas Alhamoud, penulis utama kajian tersebut.

Para penyelidik menunjukkan masalah ini melalui satu contoh klinikal: jika seorang pakar radiologi memeriksa X-ray dada yang menunjukkan bengkak tisu tetapi tiada pembesaran jantung, sistem AI mungkin secara salah mengambil kes yang mempunyai kedua-dua keadaan tersebut, yang berpotensi membawa kepada diagnosis yang sama sekali berbeza. Apabila diuji secara formal, model AI ini berprestasi tidak lebih baik daripada meneka secara rawak dalam tugasan penafian.

Untuk menangani kekangan kritikal ini, pasukan penyelidik telah membangunkan NegBench, satu rangka kerja penilaian komprehensif yang merangkumi 18 variasi tugasan dan 79,000 contoh merentasi set data imej, video dan perubatan. Penyelesaian yang dicadangkan melibatkan latihan semula VLM menggunakan set data khas yang mengandungi berjuta-juta kapsyen berunsur penafian, yang telah menunjukkan hasil yang memberangsangkan – meningkatkan kadar ingatan (recall) pada pertanyaan berunsur penafian sebanyak 10% dan meningkatkan ketepatan pada soalan aneka pilihan dengan kapsyen penafian sebanyak 28%.

"Jika sesuatu yang asas seperti penafian pun gagal difahami, kita tidak sepatutnya menggunakan model visi/bahasa berskala besar dalam banyak cara seperti yang kita lakukan sekarang – tanpa penilaian yang intensif," tegas Ghassemi, menekankan keperluan penilaian teliti sebelum menggunakan sistem ini dalam persekitaran perubatan berisiko tinggi.

Penyelidikan ini, yang turut melibatkan kolaborator dari OpenAI dan Universiti Oxford, akan dibentangkan pada Persidangan Penglihatan Komputer dan Pengecaman Corak yang akan datang. Pasukan penyelidik telah membuat penanda aras dan kod mereka boleh diakses secara umum untuk membantu menangani isu keselamatan AI yang kritikal ini.

Source:

Latest News