menu
close

AI 비전 모델, 부정어 이해 못해…의료 오류 위험 초래

MIT 연구진은 비전-언어 모델(VLM)이 'no', 'not'과 같은 부정어를 이해하지 못하며, 테스트에서 무작위 추측과 다름없는 성능을 보인다는 사실을 발견했다. 이러한 근본적인 결함은 질병의 존재 여부를 구분하는 것이 중요한 의료 환경에서 심각한 진단 오류로 이어질 수 있다. 쿠마일 알하무드와 마르지에 가세미가 이끄는 연구팀은 이러한 모델을 평가·개선하기 위한 벤치마크인 'NegBench'를 개발했다.
AI 비전 모델, 부정어 이해 못해…의료 오류 위험 초래

MIT의 혁신적인 연구가 비전-언어 모델(VLM)의 치명적인 결함을 밝혀냈다. 이 결함은 의료 등 고위험 환경에서 해당 모델의 활용에 심각한 영향을 미칠 수 있다.

연구에 따르면, VLM은 실제 상황에서 부정어—'no', 'doesn't'처럼 사실이 아니거나 존재하지 않음을 나타내는 단어—를 이해하지 못해 오류를 범할 가능성이 매우 높다. 연구를 이끈 MIT 대학원생 쿠마일 알하무드는 "이러한 부정어는 매우 중요한 영향을 미칠 수 있으며, 우리가 이 모델들을 맹목적으로 사용할 경우 치명적인 결과를 초래할 수 있다"고 말했다.

연구진은 의료 현장의 예시로 문제를 설명했다. 예를 들어, 방사선 전문의가 흉부 엑스레이를 보고 환자에게 조직 부종은 있지만 심장 비대는 없음을 확인하는 상황을 상정했다. 이런 경우 VLM은 두 상태를 구분하지 못할 가능성이 높다. 만약 모델이 두 조건이 모두 있다고 잘못 식별한다면, 진단에 중대한 영향을 미칠 수 있다. 조직 부종과 심장 비대가 모두 있다면 심장 관련 질환일 가능성이 높지만, 심장 비대가 없다면 원인이 여러 가지일 수 있기 때문이다.

연구진이 이미지 캡션에서 부정어를 식별하는 VLM의 능력을 테스트한 결과, 모델의 성능은 무작위 추측과 비슷한 수준이었다. 이에 팀은 부정어가 포함된 캡션과 함께 이미지를 구성한 데이터셋을 만들었다. 해당 데이터셋으로 VLM을 재학습시키자, 특정 객체가 없는 이미지를 찾는 작업에서 성능이 향상되었고, 부정이 포함된 캡션을 대상으로 한 객관식 문제에서도 정확도가 높아졌다. 그러나 연구진은 이 문제의 근본적 원인을 해결하기 위해 추가 연구가 필요하다고 강조했다.

알하무드는 "'no', 'not' 같은 단어뿐 아니라, 어떤 방식으로든 부정이나 제외를 표현하면 모델은 이를 단순히 무시한다"며, 이는 테스트한 모든 VLM에서 일관되게 나타난 현상이라고 설명했다. 이 문제의 근본 원인은 모델의 학습 방식에 있다. 수석 저자인 마르지에 가세미는 "캡션은 이미지에 있는 것을 표현한다—즉, 긍정적 라벨이다. 이것이 바로 문제의 핵심이다. 아무도 '울타리를 뛰어넘는 개' 이미지를 보고 '헬리콥터는 없는 울타리를 뛰어넘는 개'라고 캡션을 달지 않는다"고 설명했다. 이미지-캡션 데이터셋에 부정 예시가 없기 때문에 VLM은 이를 학습하지 못한다.

가세미는 "부정처럼 근본적인 것이 제대로 작동하지 않는다면, 지금처럼 대형 비전/언어 모델을 충분한 평가 없이 사용하는 것은 바람직하지 않다"고 지적했다. 이번 연구는 MIT, OpenAI, 옥스퍼드대 연구진이 함께 했으며, 컴퓨터 비전 및 패턴 인식 학회에서 발표될 예정이다.

이번 발견은 안전 모니터링, 의료 등 고위험 분야에 중대한 시사점을 제공한다. 연구진이 개발한 NegBench는 부정어 관련 과제에서 VLM을 평가하는 종합 벤치마크로, 정교한 언어 이해가 가능한 더 견고한 AI 시스템 개발에 중요한 진전을 이룬 것으로 평가된다. 이는 의료 진단 및 의미 기반 콘텐츠 검색 분야에도 중요한 영향을 미칠 전망이다.

Source: Mit

Latest News