MIT 연구진의 새로운 연구에 따르면, 비전-언어 모델(VLM)에서 근본적인 결함이 발견되어 의료 진단 및 기타 중요한 분야에 심각한 영향을 미칠 수 있음이 드러났다.
MIT 전기전자컴퓨터공학과의 Kumail Alhamoud와 Marzyeh Ghassemi 교수팀은 의료 영상 분석에 점점 더 많이 활용되는 이 AI 시스템들이 쿼리 내 'no', 'not'과 같은 부정어를 이해하지 못한다는 사실을 밝혀냈다.
이러한 한계는 의료 현장에서 특히 문제가 된다. 예를 들어, 방사선 전문의가 심장 비대 없이 조직 부종이 나타난 흉부 X-ray를 판독할 때, AI 시스템을 활용해 유사 사례를 찾으려 해도 모델이 특정 질환의 존재와 부재를 구분하지 못하면 잘못된 진단으로 이어질 수 있다.
"이런 부정어는 매우 중요한 영향을 미칠 수 있으며, 우리가 이러한 모델을 아무런 검증 없이 사용한다면 치명적인 결과를 초래할 수 있습니다."라고 주저자인 Alhamoud는 경고했다. 이미지 캡션에서 부정어를 식별하는 능력을 테스트한 결과, 모델의 성능은 무작위 추측과 다르지 않았다.
이 문제를 해결하기 위해 연구진은 이미지, 동영상, 의료 데이터셋 전반에 걸쳐 18개 과제 유형, 7만 9천 개 예시로 구성된 종합 벤치마크 'NegBench'를 개발했다. 이 벤치마크는 부정 쿼리를 기반으로 이미지를 검색하는 능력과, 부정어가 포함된 캡션에 대해 객관식 질문에 답하는 두 가지 핵심 역량을 평가한다.
연구팀은 또한 부정어가 포함된 예시로 데이터셋을 만들어 모델을 재학습시켰고, 그 결과 부정 쿼리에서의 재현율이 10% 향상되고, 부정 캡션이 포함된 객관식 문제에서의 정확도가 28% 증가했다. 하지만 연구진은 이 문제의 근본적 원인 해결을 위해 더 많은 연구가 필요하다고 강조했다.
"부정과 같이 근본적인 부분이 제대로 작동하지 않는다면, 지금처럼 대형 비전/언어 모델을 충분한 평가 없이 다양한 분야에 사용하는 것은 바람직하지 않습니다."라고 Ghassemi 교수는 강조했다.
이번 연구는 컴퓨터 비전 및 패턴 인식 컨퍼런스에서 발표될 예정으로, 의료 등 중요한 분야에서 더욱 견고한 AI 시스템의 필요성을 시사한다.