미국 마운트 시나이 아이칸 의과대학과 이스라엘 라빈 메디컬 센터의 연구진이 인공지능이 의료 윤리적 의사결정에서 심각한 결함을 보인다는 사실을 밝혀냈다. 이 결함이 방치될 경우 환자 치료에 위협이 될 수 있다는 우려가 제기된다.
2025년 7월 24일 npj Digital Medicine에 게재된 이번 연구는 ChatGPT를 포함한 여러 상용 대형 언어 모델(LLM)을 대상으로, 잘 알려진 윤리적 딜레마를 약간 변형한 시나리오를 통해 테스트를 진행했다. 그 결과, AI는 명백히 모순된 정보가 주어졌음에도 불구하고, 직관적이지만 잘못된 답변을 일관되게 내놓는 경향을 보였다.
마운트 시나이 인공지능 및 인간 건강 윈드라이히 부서 생성형 AI 책임자인 에얄 클랑 박사는 "AI는 매우 강력하고 효율적일 수 있지만, 이번 연구에서 AI가 중요한 세부 사항을 간과한 채 가장 익숙하거나 직관적인 답변에 의존하는 경향이 있음을 확인했다"며, "의료 분야에서는 이러한 세부 사항의 누락이 환자에게 실제적인 영향을 미칠 수 있다"고 설명했다.
연구진은 대표적인 '외과의사의 딜레마' 문제를 변형해, 소년의 아버지가 외과의사임을 명확히 밝히는 식으로 모호성을 제거했다. 그럼에도 불구하고, 여러 AI 모델은 여전히 외과의사가 소년의 어머니라고 잘못 주장해, 새로운 정보가 주어져도 익숙한 패턴에 집착하는 AI의 한계를 드러냈다.
또한, 종교적 신념을 가진 부모와 수혈에 관한 시나리오에서는, 이미 부모가 수혈에 동의했다는 내용이 명확히 제시됐음에도 불구하고, AI 모델들은 부모의 거부를 무시하고 수혈을 강행할 것을 권고하는 오류를 범했다.
라빈 메디컬 센터 혈액학 연구소의 셸리 소퍼 박사는 "익숙한 사례에 약간의 변형만 주어도 드러나는 AI의 맹점은 임상의가 결코 간과할 수 없는 부분"이라며, "환자 치료에 AI를 도입할 때 인간의 감독이 반드시 중심에 있어야 함을 이번 연구가 보여준다"고 강조했다.
연구진은 다니엘 카너먼의 저서 '생각에 관한 생각(Thinking, Fast and Slow)'에서 영감을 받아, AI 역시 인간처럼 빠르고 직관적인 사고에 의존하지만, 필요할 때 더 신중하고 분석적인 사고로 전환하는 능력이 부족하다는 점을 발견했다.
마운트 시나이 연구팀은 앞으로 실제 의료 현장의 복잡성을 다양한 AI 모델이 어떻게 처리하는지 체계적으로 평가하는 'AI 보증 연구소'를 설립할 계획이다. 연구진은 특히 윤리적으로 민감하거나 중대한 결정이 필요한 상황에서 AI는 임상 전문성을 보완하는 역할에 그쳐야 하며, 대체해서는 안 된다고 강조했다.