menu
close

AI 비전 모델, 의료 영상에서 중요한 부정어 이해 테스트 실패

MIT 연구진은 의료 영상 분석에 널리 사용되는 비전-언어 모델이 'no', 'not'과 같은 부정어를 이해하지 못한다는 사실을 발견했다. 이 치명적인 한계는 AI 시스템이 특정 기준에 따라 의료 영상을 검색할 때 심각한 진단 오류로 이어질 수 있다. 2025년 5월 14일 발표된 이번 연구는 AI 비전 시스템의 부정어 이해 능력을 평가하고 개선하기 위한 새로운 벤치마크 'NegBench'를 소개한다.
AI 비전 모델, 의료 영상에서 중요한 부정어 이해 테스트 실패

MIT 연구진의 새로운 연구에 따르면, 비전-언어 모델(VLM)에서 근본적인 결함이 발견되어 의료 진단 및 기타 중요한 분야에 심각한 영향을 미칠 수 있음이 드러났다.

MIT 전기전자컴퓨터공학과의 Kumail Alhamoud와 Marzyeh Ghassemi 교수팀은 의료 영상 분석에 점점 더 많이 활용되는 이 AI 시스템들이 쿼리 내 'no', 'not'과 같은 부정어를 이해하지 못한다는 사실을 밝혀냈다.

이러한 한계는 의료 현장에서 특히 문제가 된다. 예를 들어, 방사선 전문의가 심장 비대 없이 조직 부종이 나타난 흉부 X-ray를 판독할 때, AI 시스템을 활용해 유사 사례를 찾으려 해도 모델이 특정 질환의 존재와 부재를 구분하지 못하면 잘못된 진단으로 이어질 수 있다.

"이런 부정어는 매우 중요한 영향을 미칠 수 있으며, 우리가 이러한 모델을 아무런 검증 없이 사용한다면 치명적인 결과를 초래할 수 있습니다."라고 주저자인 Alhamoud는 경고했다. 이미지 캡션에서 부정어를 식별하는 능력을 테스트한 결과, 모델의 성능은 무작위 추측과 다르지 않았다.

이 문제를 해결하기 위해 연구진은 이미지, 동영상, 의료 데이터셋 전반에 걸쳐 18개 과제 유형, 7만 9천 개 예시로 구성된 종합 벤치마크 'NegBench'를 개발했다. 이 벤치마크는 부정 쿼리를 기반으로 이미지를 검색하는 능력과, 부정어가 포함된 캡션에 대해 객관식 질문에 답하는 두 가지 핵심 역량을 평가한다.

연구팀은 또한 부정어가 포함된 예시로 데이터셋을 만들어 모델을 재학습시켰고, 그 결과 부정 쿼리에서의 재현율이 10% 향상되고, 부정 캡션이 포함된 객관식 문제에서의 정확도가 28% 증가했다. 하지만 연구진은 이 문제의 근본적 원인 해결을 위해 더 많은 연구가 필요하다고 강조했다.

"부정과 같이 근본적인 부분이 제대로 작동하지 않는다면, 지금처럼 대형 비전/언어 모델을 충분한 평가 없이 다양한 분야에 사용하는 것은 바람직하지 않습니다."라고 Ghassemi 교수는 강조했다.

이번 연구는 컴퓨터 비전 및 패턴 인식 컨퍼런스에서 발표될 예정으로, 의료 등 중요한 분야에서 더욱 견고한 AI 시스템의 필요성을 시사한다.

Source:

Latest News