menu
close

Yapay Zekâ Görüntü Modelleri, Tıbbi Görüntülemede Kritik Olumsuzlama Testinde Başarısız Oldu

MIT araştırmacıları, tıbbi görüntü analizinde yaygın olarak kullanılan görsel-dil modellerinin, 'yok' ve 'değil' gibi olumsuzlama kelimelerini anlayamadığını keşfetti. Bu kritik sınırlama, bu yapay zekâ sistemlerinin belirli kriterlerle tıbbi görüntüleri getirmesi istendiğinde ciddi teşhis hatalarına yol açabilir. 14 Mayıs 2025'te yayımlanan çalışma, yapay zekâ görsel sistemlerinde olumsuzlama anlayışını değerlendirmek ve geliştirmek için yeni bir kıyaslama aracı olan NegBench'i tanıtıyor.
Yapay Zekâ Görüntü Modelleri, Tıbbi Görüntülemede Kritik Olumsuzlama Testinde Başarısız Oldu

MIT araştırmacılarının yaptığı yeni bir çalışma, görsel-dil modellerinde (VLM) tıbbi teşhisler ve diğer kritik uygulamalar için ciddi sonuçlar doğurabilecek temel bir kusuru ortaya çıkardı.

MIT Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü'nden Kumail Alhamoud liderliğinde ve kıdemli yazar Marzyeh Ghassemi'nin öncülüğünde yürütülen ekip, tıbbi görüntüleri analiz etmek için giderek daha fazla kullanılan bu yapay zekâ sistemlerinin, sorgularda geçen 'yok' ve 'değil' gibi olumsuzlama kelimelerini anlayamadığını buldu.

Bu sınırlama, özellikle tıbbi bağlamlarda büyük bir sorun haline geliyor. Örneğin, bir radyolog, kalp büyümesi olmadan doku şişmesi gösteren bir akciğer röntgenini incelerken, benzer vakaları bulmak için bir yapay zekâ sistemini kullandığında, model belirli durumların varlığı ile yokluğunu ayırt edemezse yanlış teşhislere yol açabilir.

"Bu olumsuzlama kelimeleri çok önemli bir etkiye sahip olabilir ve bu modelleri körü körüne kullanırsak felaket sonuçlarla karşılaşabiliriz," diye uyarıyor başyazar Alhamoud. Modeller, görüntü altyazılarında olumsuzlamayı tanımlama yetenekleri test edildiğinde, rastgele tahmin etmekten daha iyi performans gösteremedi.

Araştırmacılar bu sorunu çözmek için NegBench adını verdikleri, görüntü, video ve tıbbi veri setlerine yayılan 18 görev varyasyonunda 79.000 örnek içeren kapsamlı bir kıyaslama aracı geliştirdi. Bu kıyaslama, iki temel yeteneği değerlendiriyor: Olumsuzlanmış sorgulara göre görüntü getirme ve olumsuzlanmış altyazılarla çoktan seçmeli soruları yanıtlama.

Ekip ayrıca, bu modelleri yeniden eğitmek için olumsuzlamaya özgü örneklerden oluşan veri setleri oluşturdu ve olumsuzlanmış sorgularda geri çağırmada %10, olumsuzlanmış altyazılarla çoktan seçmeli sorularda ise doğrulukta %28 iyileşme sağladı. Ancak araştırmacılar, bu sorunun temel nedenlerinin çözülmesi için daha fazla çalışmaya ihtiyaç olduğunu vurguluyor.

"Eğer olumsuzlama gibi temel bir şey bozuksa, büyük görsel/dil modellerini şu anda kullandığımız birçok şekilde—yoğun değerlendirme olmadan—kullanmamalıyız," diyor Ghassemi.

Araştırma, yakında düzenlenecek Bilgisayarla Görü Görüntü ve Desen Tanıma Konferansı'nda sunulacak ve sağlık gibi kritik uygulamalarda daha sağlam yapay zekâ sistemlerine duyulan acil ihtiyaca dikkat çekecek.

Source:

Latest News