menu
close

MIT의 AI 코치, 언어 모델의 문제 해결 능력 대폭 향상

MIT 연구진이 개발한 CodeSteer는 대형 언어 모델이 복잡한 질의에 올바르게 답할 때까지 텍스트와 코드 생성을 전환하도록 안내하는 지능형 어시스턴트다. 이 시스템은 수학 문제나 공간 추론과 같은 기호적 과제에서 LLM의 정확도를 30% 이상 향상시켜, 덜 정교한 모델이 더 발전된 모델을 능가할 수 있도록 했다. 이번 혁신은 로보틱스, 공급망 관리 등 정밀한 계산 추론이 필요한 다양한 분야에서 AI의 문제 해결 능력을 크게 높일 것으로 기대된다.
MIT의 AI 코치, 언어 모델의 문제 해결 능력 대폭 향상

대형 언어 모델(LLM)은 맥락을 이해하고 텍스트 기반의 논리적 답변을 제공하는 데 뛰어난 성능을 보인다. 그러나 소수점 비교나 최적화 문제 해결 등 코드로 해결하는 것이 더 적합한 계산 과제에서는 종종 한계를 드러낸다.

이러한 한계를 극복하기 위해 MIT 연구진은 CodeSteer라는 스마트 어시스턴트를 개발했다. CodeSteer는 대형 언어 모델의 코치 역할을 하며, 복잡한 질의에 올바르게 답할 때까지 텍스트와 코드 생성을 전환하도록 유도한다.

프로젝트에 참여한 하버드 및 MIT 대학원생 Yongchao Chen은 "우리는 인간에게서 영감을 받았습니다. 스포츠에서 트레이너가 팀의 스타 선수보다 실력이 뛰어나진 않지만, 선수에게 유용한 조언을 제공해 경기력을 끌어올릴 수 있습니다. 이러한 조정 방식이 LLM에도 효과적입니다"라고 설명했다.

CodeSteer는 Llama-3-8B 모델을 기반으로 파인튜닝된 소형 LLM으로, 질의를 검토한 뒤 텍스트와 코드 중 어떤 방식이 문제 해결에 더 적합한지 판단한다. 이후 대형 LLM이 적합한 방식을 사용하도록 프롬프트를 생성해 안내한다. 만약 답이 올바르지 않으면, CodeSteer는 LLM이 다양한 접근법을 시도하도록 반복적으로 프롬프트를 제공해 결국 정답에 도달하게 한다.

연구진은 CodeSteer를 활용해 GPT-4o의 기호적 과제 정확도를 30% 이상 끌어올렸으며, 37개 과제에서 평균 성능 점수가 53.3에서 86.4로 상승했다. 이로써 GPT-4o는 OpenAI의 o1(82.7), DeepSeek R1(76.8) 등 더 발전된 모델보다 뛰어난 성능을 보였다. 특히 CodeSteer는 Claude, Mistral, GPT-3.5 등 다른 모델에 적용했을 때도 평균 41.8%의 성능 향상을 보여 뛰어난 범용성을 입증했다.

CodeSteer 개발 및 테스트를 위해 연구진은 난이도 조절이 가능한 37개 기호적 과제로 구성된 종합 벤치마크 'SymBench'를 제작했다. 이 과제들은 수학, 공간 추론, 논리, 순서 추론, 최적화 문제 등 다양한 영역을 아우른다.

이번 혁신은 텍스트 기반 추론만으로는 해결이 어려운 복잡한 문제, 예를 들어 불확실한 환경에서 로봇의 경로 생성이나 국제 공급망의 운송 일정 수립 등에서 AI의 문제 해결 능력을 크게 향상시킬 수 있을 것으로 기대된다.

Chen은 "LLM에 스마트하게 코딩을 활용할 수 있는 능력을 더함으로써 이미 강력한 모델의 성능을 한층 더 끌어올릴 수 있습니다"라고 말했다. 연구진은 현재 CodeSteer의 반복 프롬프트 과정을 더욱 신속하게 최적화하고, 별도의 어시스턴트 없이 텍스트 추론과 코드 생성을 자유롭게 전환할 수 있는 통합 모델의 파인튜닝도 연구 중이다.

Source: Techxplore

Latest News