MIT'den bu hafta yayımlanan yeni bir araştırmaya göre, tıbbi görüntüleri analiz etmek için kullanılan yapay zekâ sistemlerindeki kritik bir kusur, hastaları riske atabilir.
Lisansüstü öğrenci Kumail Alhamoud ve Doçent Dr. Marzyeh Ghassemi liderliğindeki çalışma, sağlık alanında yaygın olarak kullanılan görsel-dil modellerinin (VLM) tıbbi görüntüleri analiz ederken 'yok' ve 'değil' gibi olumsuzlama kelimelerini temelde anlayamadığını ortaya koydu.
"Bu olumsuzlama kelimeleri çok önemli bir etkiye sahip olabilir ve bu modelleri körü körüne kullanırsak felaketle sonuçlanabilecek durumlarla karşılaşabiliriz," diyor çalışmanın başyazarı Alhamoud.
Araştırmacılar, bu sorunu klinik bir örnekle gösterdi: Bir radyolog, akciğer röntgeninde doku şişliği olup kalp büyümesi olmadığını tespit ettiğinde, bir yapay zekâ sistemi her iki durumu da içeren vakaları yanlışlıkla getirebilir ve bu da tamamen farklı bir teşhise yol açabilir. Yapay zekâ modelleri, olumsuzlama görevlerinde resmi olarak test edildiklerinde, rastgele tahmin etmekten daha iyi bir performans gösteremedi.
Bu kritik sınırlamayı aşmak için ekip, görüntü, video ve tıbbi veri kümelerinde 18 görev çeşidi ve 79.000 örnek içeren kapsamlı bir değerlendirme çerçevesi olan NegBench'i geliştirdi. Önerdikleri çözüm, milyonlarca olumsuzlamalı başlık içeren özel veri setleriyle VLM'lerin yeniden eğitilmesini içeriyor ve bu yöntem umut verici sonuçlar gösterdi: Olumsuzlamalı sorgularda geri çağırmayı %10 artırırken, olumsuzlamalı başlıklara sahip çoktan seçmeli sorularda doğruluğu %28 yükseltti.
"Olumsuzlama gibi temel bir şey bozuksa, büyük görsel/dil modellerini şu anda kullandığımız birçok şekilde – yoğun bir değerlendirme olmadan – kullanmamalıyız," diyen Ghassemi, bu sistemlerin yüksek riskli tıbbi ortamlarda kullanılmadan önce dikkatli bir şekilde değerlendirilmesi gerektiğinin altını çiziyor.
OpenAI ve Oxford Üniversitesi'nden işbirlikçilerin de yer aldığı araştırma, yakında düzenlenecek Bilgisayarla Görü ve Desen Tanıma Konferansı'nda sunulacak. Ekip, bu kritik yapay zekâ güvenliği sorununu ele almak için kıyaslama araçlarını ve kodlarını kamuya açık olarak paylaştı.