menu
close

의료용 AI 시스템, 영상 분석에서 부정어 이해 실패

MIT 연구진은 의료 영상 분석에 사용되는 비전-언어 모델이 'no', 'not'과 같은 부정어를 이해하지 못한다는 사실을 밝혀냈다. 부정어 관련 과제에서 이 AI 시스템들은 무작위 추측과 다를 바 없는 성능을 보여, 의료 현장 도입에 심각한 우려를 낳고 있다. 연구진은 NegBench라는 새로운 벤치마크를 개발했으며, 부정어 이해도를 최대 28%까지 향상시킬 수 있는 해결책도 제안했다.
의료용 AI 시스템, 영상 분석에서 부정어 이해 실패

MIT가 이번 주 발표한 새로운 연구에 따르면, 의료 영상을 분석하는 인공지능 시스템의 치명적인 결함이 환자 안전을 위협할 수 있는 것으로 드러났다.

이번 연구는 대학원생 쿠마일 알하무드와 마르지예 가셈미 부교수 주도로 진행됐으며, 의료 현장에서 널리 활용되는 비전-언어 모델(VLM)이 의료 영상을 분석할 때 'no', 'not'과 같은 부정어를 근본적으로 이해하지 못한다는 사실을 밝혔다.

"이러한 부정어는 매우 중요한 영향을 미칠 수 있습니다. 만약 우리가 이러한 모델을 맹목적으로 사용한다면, 치명적인 결과를 초래할 수 있습니다."라고 연구의 주저자인 알하무드는 경고했다.

연구진은 임상 사례를 통해 이 문제를 입증했다. 예를 들어, 방사선 전문의가 흉부 X선에서 조직 부종은 있지만 심장 비대는 없다고 판독할 경우, AI 시스템은 두 조건이 모두 있는 사례를 잘못 검색해 전혀 다른 진단으로 이어질 수 있다. 실제로 부정어 과제에서 이 AI 모델들은 무작위 추측과 다를 바 없는 성능을 보였다.

이 중대한 한계를 극복하기 위해, 연구팀은 이미지, 비디오, 의료 데이터셋 전반에 걸쳐 18가지 과제 변형과 7만9천 개의 예시를 포함한 종합 평가 프레임워크 'NegBench'를 개발했다. 연구진이 제안한 해결책은 수백만 개의 부정어 캡션이 포함된 특수 데이터셋으로 VLM을 재학습시키는 것으로, 그 결과 부정어 쿼리의 리콜이 10% 향상되고, 부정어 캡션이 포함된 객관식 문제의 정확도가 28% 증가하는 등 유의미한 성과를 보였다.

"부정어처럼 근본적인 부분이 제대로 작동하지 않는다면, 지금처럼 대형 비전/언어 모델을 충분한 평가 없이 의료 현장에 사용하는 것은 매우 위험합니다."라고 가셈미 교수는 강조하며, 실제 의료 환경에 도입하기 전 신중한 평가가 필요함을 지적했다.

이번 연구는 OpenAI와 옥스퍼드 대학 연구진과의 협업으로 진행됐으며, 컴퓨터 비전 및 패턴 인식 학술대회에서 발표될 예정이다. 연구팀은 이 중대한 AI 안전 문제 해결을 위해 벤치마크와 코드를 공개했다.

Source:

Latest News