A startup chinesa de inteligência artificial DeepSeek continua a transformar o cenário global de IA com sua mais recente inovação em otimização de modelos. Em 29 de maio, a empresa revelou que uma variante de seu modelo de raciocínio recentemente atualizado, o R1-0528, foi utilizada para aprimorar o modelo Qwen 3 8B Base da Alibaba por meio de um processo conhecido como destilação.
A técnica de destilação, que transfere conhecimento de um modelo mais sofisticado para um menor, permitiu à DeepSeek transmitir os processos de raciocínio de seu modelo R1-0528 para o sistema da Alibaba. Segundo o anúncio da DeepSeek, esse processo resultou em melhorias de desempenho superiores a 10% para o modelo Qwen 3.
"Acreditamos que a cadeia de raciocínio do DeepSeek-R1-0528 terá grande importância tanto para a pesquisa acadêmica quanto para aplicações práticas", afirmou a DeepSeek em seu comunicado. A empresa já lançou anteriormente diversos modelos destilados baseados nas arquiteturas Qwen e Llama da Meta, com tamanhos variando de 1,5B a 70B parâmetros.
A abordagem da DeepSeek para o desenvolvimento de IA tem chamado atenção desde janeiro, quando seu modelo R1 demonstrou desempenho comparável a soluções da OpenAI e do Google, porém com uma fração do custo computacional. O sucesso da empresa desafia a ideia predominante de que IA de ponta exige grandes recursos computacionais e investimentos elevados.
Mesmo diante das restrições de exportação dos EUA para chips avançados de IA, a DeepSeek otimizou seus modelos para rodar de forma eficiente em hardwares de menor potência e aprovados para exportação. Essa estratégia obrigou concorrentes a reavaliarem suas dependências de hardware e influenciou a dinâmica do mercado no setor de IA.
A atualização mais recente, R1-0528, aproxima o modelo da DeepSeek do desempenho dos modelos de raciocínio o3 da OpenAI e do Gemini 2.5 Pro do Google, com avanços significativos em profundidade de raciocínio, capacidades de inferência e redução de alucinações. A contínua inovação da empresa e sua abordagem open source estão redefinindo as expectativas para o desenvolvimento e a eficiência de implantação de modelos de IA.