MIT tarafından yapılan çığır açıcı bir çalışma, görüntü-dil modellerinde (VLM) sağlık ve diğer kritik alanlardaki kullanımlarını ciddi şekilde etkileyebilecek temel bir kusuru ortaya çıkardı.
Çalışmada MIT araştırmacıları, VLM'lerin olumsuzlamayı — yani "hayır" ve "değil" gibi, bir şeyin yanlış veya mevcut olmadığını belirten kelimeleri — anlamadıkları için gerçek dünya senaryolarında hata yapmaya son derece yatkın olduklarını buldu. "Bu olumsuzlama kelimeleri çok önemli bir etkiye sahip olabilir ve bu modelleri körü körüne kullanırsak felaket sonuçlarla karşılaşabiliriz," diyor çalışmanın baş yazarı ve MIT yüksek lisans öğrencisi Kumail Alhamoud.
Araştırmacılar, sorunu tıbbi bir örnekle açıklıyor: Bir radyoloğun bir akciğer röntgenini incelediğini ve hastada doku şişliği olduğunu, ancak kalp büyümesi olmadığını fark ettiğini düşünün. Böyle bir durumda, görüntü-dil modelleri bu iki durumu ayırt etmekte muhtemelen başarısız olacaktır. Modelin her iki durumu da içeren raporları yanlış tanımlaması halinde, teşhis açısından önemli sonuçlar doğabilir: Doku şişliği ve kalp büyümesi olan bir hastada muhtemelen kalple ilgili bir durum söz konusuyken, kalp büyümesi yoksa altta yatan birçok farklı neden olabilir.
Araştırmacılar, görüntü-dil modellerinin görsel açıklamalarda olumsuzlamayı tanımlama yeteneğini test ettiklerinde, modellerin çoğu zaman rastgele tahmin kadar iyi performans gösterdiğini buldu. Bu bulgular üzerine ekip, eksik nesneleri tanımlayan olumsuzlama kelimeleri içeren açıklamalarla eşleştirilmiş bir görsel veri seti oluşturdu. Bu veri setiyle bir görüntü-dil modelini yeniden eğitmenin, modelden belirli nesneleri içermeyen görselleri bulması istendiğinde performansı artırdığını gösterdiler. Ayrıca, olumsuzlamalı açıklamalarla yapılan çoktan seçmeli soru-cevaplarda da doğruluk oranı yükseldi. Ancak araştırmacılar, bu sorunun temel nedenlerinin çözülmesi için daha fazla çalışmaya ihtiyaç olduğunu vurguluyor.
"Bu durum sadece 'hayır' ve 'değil' gibi kelimelerle sınırlı değil. Olumsuzlama veya dışlama nasıl ifade edilirse edilsin, modeller bunu tamamen göz ardı ediyor," diyor Alhamoud. Bu durum, test ettikleri tüm VLM'lerde tutarlı olarak gözlemlendi. Sorunun temelinde, bu modellerin nasıl eğitildiği yatıyor. "Açıklamalar, görsellerde ne olduğunu ifade ediyor — yani pozitif bir etiket. Ve aslında bütün sorun da bu. Kimse bir köpeğin çitin üzerinden atladığı bir görseli, 'çitin üzerinden atlayan bir köpek, helikopter yok' şeklinde açıklamaz," diye açıklıyor kıdemli yazar Marzyeh Ghassemi. Görsel-açıklama veri setlerinde olumsuzlama örnekleri bulunmadığı için, VLM'ler bunu tanımayı hiç öğrenemiyor.
"Eğer olumsuzlama gibi temel bir şey bozuksa, büyük görüntü/dil modellerini şu anda kullandığımız birçok şekilde — kapsamlı değerlendirme olmadan — kullanmamalıyız," diyor MIT Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü'nden doçent ve Tıp Mühendisliği Bilimleri Enstitüsü üyesi Ghassemi. Araştırma, MIT, OpenAI ve Oxford Üniversitesi'nden araştırmacıların da bulunduğu bir ekip tarafından yürütüldü ve Bilgisayarla Görü ve Desen Tanıma Konferansı'nda sunulacak.
Bu bulgu, güvenlik izleme ve sağlık hizmetleri gibi yüksek riskli alanlar için önemli sonuçlar doğuruyor. Araştırmacıların, görüntü-dil modellerinin olumsuzlama odaklı görevlerde değerlendirilmesi için kapsamlı bir kıyaslama seti olan NegBench'i geliştirmesi, tıbbi tanı ve anlamsal içerik erişimi gibi kritik alanlarda daha gelişmiş ve nüanslı dil anlayışına sahip yapay zekâ sistemlerine doğru önemli bir adım niteliğinde.