MIT 연구진이 대형 언어 모델(LLM)이 왜 편향을 보이는지에 대한 중요한 돌파구를 마련하며, 더 신뢰할 수 있는 AI 시스템 개발의 길을 열었다.
연구팀은 LLM이 '위치 편향(position bias)'을 갖고 있음을 발견했다. 이는 모델이 문서의 시작과 끝 부분 정보를 과도하게 강조하고, 중간 부분의 내용을 상대적으로 소홀히 하는 경향을 의미한다. 이 편향은 실제 활용에서 문제를 일으킬 수 있다. 예를 들어, 변호사가 LLM 기반 어시스턴트로 30페이지 분량의 문서를 검색할 때, 관련 정보가 처음이나 마지막 페이지에 있을 경우 더 쉽게 찾아낼 수 있다는 것이다.
이번 연구의 혁신적인 점은, 연구진이 이러한 편향의 근본 원인이 모델 아키텍처 자체에 있음을 밝혀냈다는 데 있다. MIT 대학원생이자 논문의 주저자인 우 신이(Xinyi Wu)는 "이러한 모델들은 블랙박스와 같기 때문에, LLM 사용자 입장에서는 위치 편향이 모델의 일관성을 해칠 수 있다는 사실을 알기 어렵다"고 설명했다.
연구팀은 정보가 LLM의 머신러닝 아키텍처 내에서 어떻게 흐르는지 분석하기 위해 그래프 기반 이론 프레임워크를 구축했다. 분석 결과, 인과 마스킹(causal masking)과 어텐션 메커니즘 등 특정 설계 선택이 학습 데이터에 편향이 존재하지 않더라도 입력의 시작 부분에 대한 본질적인 편향을 만들어낸다는 사실을 밝혀냈다.
우 신이는 "문장 내에서 앞부분과 뒷부분 단어가 더 중요할 때도 많지만, LLM이 자연어 생성이 아닌 순위 매기기나 정보 검색 같은 작업에 사용될 때는 이러한 편향이 매우 해로울 수 있다"고 지적했다.
이번 연구는 LLM이 다양한 형태의 편향을 내포하고 있다는 최근의 다른 연구들과도 맥락을 같이한다. 프린스턴 대학의 별도 연구에서는, 명시적으로 편향을 제거한 LLM조차도 인간이 의식적으로 고정관념을 거부하면서도 무의식적으로는 이를 지속하는 것과 유사한 암묵적 편향을 형성한다는 사실이 밝혀졌다. 심리학에서 영감을 받은 측정법을 활용해, 연구진은 8개의 가치 정렬 모델에서 인종, 성별, 종교, 건강 등 다양한 범주에 걸쳐 만연한 고정관념 편향을 감지했다.
MIT의 이번 발견은 스탠퍼드 대학의 아민 사베리(Amin Saberi) 교수가 "트랜스포머 모델의 핵심인 어텐션 메커니즘에 대한 드문 이론적 시각"이라고 평가할 만큼, 수학적 명확성과 실제 시스템에 대한 실질적 통찰을 동시에 제공한다. LLM이 점차 중요한 분야에 통합됨에 따라, 이러한 본질적 편향을 이해하고 해결하는 것이 공정하고 신뢰할 수 있는 AI 기술 개발에 필수적일 것으로 보인다.