A startup chinesa de inteligência artificial DeepSeek continua a revolucionar o panorama global da IA com a sua mais recente inovação em otimização de modelos. No dia 29 de maio, a empresa revelou que uma variante do seu recentemente atualizado modelo de raciocínio R1-0528 foi utilizada para potenciar o modelo Qwen 3 8B Base da Alibaba, através de um processo conhecido como destilação.
A técnica de destilação, que transfere conhecimento de um modelo mais sofisticado para outro mais pequeno, permitiu à DeepSeek transmitir os processos de raciocínio do seu modelo R1-0528 ao sistema da Alibaba. Segundo o anúncio da DeepSeek, este processo resultou em melhorias de desempenho superiores a 10% para o modelo Qwen 3.
"Acreditamos que a cadeia de raciocínio do DeepSeek-R1-0528 terá uma importância significativa tanto para a investigação académica como para aplicações práticas", afirmou a DeepSeek no seu comunicado. A empresa já lançou anteriormente vários modelos destilados baseados nas arquiteturas Qwen e Llama da Meta, com tamanhos que variam entre 1,5 mil milhões e 70 mil milhões de parâmetros.
A abordagem da DeepSeek ao desenvolvimento de IA tem atraído grande atenção desde janeiro, quando o seu modelo R1 demonstrou um desempenho comparável às ofertas da OpenAI e da Google, a uma fração do custo computacional. O sucesso da empresa tem desafiado a ideia prevalecente de que a IA de ponta exige enormes recursos computacionais e investimento.
Apesar das restrições de exportação dos EUA sobre chips avançados de IA, a DeepSeek otimizou os seus modelos para funcionarem de forma eficiente em hardware de menor potência e aprovado para exportação. Esta estratégia obrigou os concorrentes a reconsiderar as suas dependências de hardware e influenciou a dinâmica do mercado no setor da IA.
A mais recente atualização R1-0528 aproxima o modelo da DeepSeek do desempenho dos modelos de raciocínio o3 da OpenAI e do Gemini 2.5 Pro da Google, com melhorias significativas na profundidade de raciocínio, capacidades de inferência e redução de alucinações. A contínua inovação da empresa e a sua abordagem open-source estão a redefinir as expectativas para o desenvolvimento e eficiência na implementação de modelos de IA.