menu
close

AI 모델, 중대한 의료 윤리 테스트에서 실패… 마운트 시나이 연구 결과

마운트 시나이와 라빈 메디컬 센터의 획기적인 연구에 따르면, ChatGPT와 같은 첨단 AI 모델조차 의료 윤리 상황에서 심각한 오류를 범하는 것으로 드러났다. 연구진은 AI 시스템이 약간만 변형된 윤리적 딜레마에 직면했을 때 익숙하지만 잘못된 답변을 내놓는 경향이 있으며, 때로는 업데이트된 정보를 완전히 무시하기도 한다는 사실을 발견했다. 이러한 결과는 윤리적 세밀함이 중요한 의료 의사결정에서 AI의 신뢰성에 대한 심각한 우려를 제기한다.
AI 모델, 중대한 의료 윤리 테스트에서 실패… 마운트 시나이 연구 결과

마운트 시나이 아이칸 의과대학 연구진이 인공지능이 의료 윤리적 의사결정을 처리하는 방식에서 위험한 결함을 발견했다. 이는 환자 치료에 중대한 영향을 미칠 수 있는 한계를 드러낸 것이다.

2025년 7월 22일자 NPJ Digital Medicine에 게재된 이번 연구는 ChatGPT를 비롯한 여러 상용 대형 언어 모델(LLM)을 잘 알려진 윤리적 딜레마를 변형한 시나리오에 적용해 테스트했다. 마운트 시나이 생성형 AI 책임자인 에얄 클랑 박사와 AI 및 인간 건강 윈드라이히 학과장인 기리시 나드카르니 박사 주도로 진행된 연구팀은, AI 시스템이 시나리오가 약간만 변경되어도 기본적인 오류를 자주 범한다는 사실을 밝혀냈다.

대표적인 예로, 연구진은 고전적인 '외과의사의 딜레마' 퍼즐을 변형해 소년의 아버지가 외과의사임을 명확히 명시했다. 그럼에도 불구하고 여러 AI 모델은 여전히 외과의사가 소년의 어머니일 것이라고 잘못 주장해, 새로운 정보와 상충하더라도 익숙한 패턴을 고수하는 AI의 한계를 드러냈다.

또 다른 테스트에서는 종교적인 부모와 수혈에 관한 시나리오가 사용됐다. 연구진이 부모가 이미 수혈에 동의했다고 시나리오를 수정했음에도, 많은 AI 모델은 더 이상 존재하지 않는 거부를 무시하고 이를 무시하는 답변을 내놓았다.

클랑 박사는 "AI는 매우 강력하고 효율적일 수 있지만, 본 연구는 AI가 중요한 세부사항을 간과한 채 가장 익숙하거나 직관적인 답변을 기본값으로 삼을 수 있음을 보여준다"며, "의료 현장에서는 윤리적·임상적 함의가 큰 결정이 많기 때문에 이러한 세밀함을 놓치는 것은 환자에게 실제적인 영향을 미칠 수 있다"고 설명했다.

이번 연구는 빠르고 직관적인 반응과 느리고 분석적인 사고를 대조한 대니얼 카너먼의 저서 '생각에 관한 생각(Thinking, Fast and Slow)'에서 영감을 받았다. 연구 결과는 AI 모델 역시 인간처럼 두 가지 사고 모드 간 전환에 어려움을 겪을 수 있음을 시사한다.

연구진은 AI가 의료 분야에서 여전히 가치 있는 활용처가 있다고 강조하면서도, 윤리적 민감성이나 세밀한 판단이 요구되는 상황에서는 신중한 인간의 감독이 필수적이라고 지적했다. 나드카르니 박사는 "이 도구들은 매우 유용할 수 있지만, 결코 완벽하지 않다"며, "AI는 임상 전문성을 보완하는 역할로 활용되어야 하며, 특히 복잡하거나 중대한 의사결정에서는 대체 수단이 되어서는 안 된다"고 강조했다.

Source:

Latest News