중국 AI 스타트업 딥시크(DeepSeek)가 최신 모델 최적화 혁신을 통해 글로벌 인공지능 시장을 다시 한 번 뒤흔들고 있다. 5월 29일, 딥시크는 최근 업데이트된 R1-0528 추론 모델의 변형을 활용해 알리바바의 Qwen 3 8B Base 모델을 '증류(distillation)'라는 과정을 통해 성능을 높였다고 밝혔다.
증류 기술은 더 정교한 대형 모델의 지식을 소형 모델에 이전하는 방식으로, 딥시크는 R1-0528 모델의 추론 과정을 알리바바 시스템에 효과적으로 이식했다. 딥시크에 따르면, 이 과정을 통해 Qwen 3 모델의 성능이 10% 이상 향상됐다.
딥시크는 "DeepSeek-R1-0528의 체인-오브-쏘트(chain-of-thought)는 학술 연구와 실무 응용 모두에서 중요한 역할을 할 것"이라고 밝혔다. 딥시크는 이미 Qwen과 Meta의 Llama 아키텍처 기반으로 1.5B에서 70B 파라미터까지 다양한 크기의 증류 모델을 공개한 바 있다.
딥시크의 AI 개발 방식은 올해 1월 R1 모델이 OpenAI와 Google의 제품에 필적하는 성능을 훨씬 낮은 연산 비용으로 입증한 이후 업계의 큰 주목을 받아왔다. 딥시크의 성공은 최첨단 AI가 반드시 막대한 컴퓨팅 자원과 투자를 필요로 한다는 기존 통념에 도전장을 내밀었다.
미국의 첨단 AI 칩 수출 규제에도 불구하고, 딥시크는 수출 승인된 저전력 하드웨어에서 효율적으로 구동될 수 있도록 모델을 최적화했다. 이러한 전략은 경쟁사들로 하여금 하드웨어 의존도를 재고하게 만들었으며, AI 시장의 판도 변화에도 영향을 미쳤다.
최신 R1-0528 업데이트는 딥시크 모델을 OpenAI의 o3 추론 모델과 Google의 Gemini 2.5 Pro에 근접한 성능으로 끌어올렸으며, 추론 심도, 추론 능력, 환각(hallucination) 감소 측면에서 큰 개선을 이뤘다. 딥시크의 지속적인 혁신과 오픈소스 전략은 AI 모델 개발 및 배포 효율성에 대한 새로운 기대치를 제시하고 있다.