menu
close

DeepSeek Potencia IA da Alibaba Através de Destilação de Conhecimento

A startup chinesa de IA DeepSeek anunciou, a 29 de maio de 2025, que melhorou o modelo Qwen 3 8B Base da Alibaba através de um processo de destilação de conhecimento, utilizando o seu modelo de raciocínio atualizado R1-0528. Esta técnica permitiu transferir as capacidades avançadas de raciocínio da DeepSeek para o modelo da Alibaba, resultando em melhorias de desempenho superiores a 10%. Esta colaboração destaca a crescente influência da DeepSeek no setor da IA e o seu compromisso em avançar na eficiência dos modelos através de abordagens inovadoras de otimização.
DeepSeek Potencia IA da Alibaba Através de Destilação de Conhecimento

A startup chinesa de inteligência artificial DeepSeek continua a revolucionar o panorama global da IA com a sua mais recente inovação em otimização de modelos. No dia 29 de maio, a empresa revelou que uma variante do seu recentemente atualizado modelo de raciocínio R1-0528 foi utilizada para potenciar o modelo Qwen 3 8B Base da Alibaba, através de um processo conhecido como destilação.

A técnica de destilação, que transfere conhecimento de um modelo mais sofisticado para outro mais pequeno, permitiu à DeepSeek transmitir os processos de raciocínio do seu modelo R1-0528 ao sistema da Alibaba. Segundo o anúncio da DeepSeek, este processo resultou em melhorias de desempenho superiores a 10% para o modelo Qwen 3.

"Acreditamos que a cadeia de raciocínio do DeepSeek-R1-0528 terá uma importância significativa tanto para a investigação académica como para aplicações práticas", afirmou a DeepSeek no seu comunicado. A empresa já lançou anteriormente vários modelos destilados baseados nas arquiteturas Qwen e Llama da Meta, com tamanhos que variam entre 1,5 mil milhões e 70 mil milhões de parâmetros.

A abordagem da DeepSeek ao desenvolvimento de IA tem atraído grande atenção desde janeiro, quando o seu modelo R1 demonstrou um desempenho comparável às ofertas da OpenAI e da Google, a uma fração do custo computacional. O sucesso da empresa tem desafiado a ideia prevalecente de que a IA de ponta exige enormes recursos computacionais e investimento.

Apesar das restrições de exportação dos EUA sobre chips avançados de IA, a DeepSeek otimizou os seus modelos para funcionarem de forma eficiente em hardware de menor potência e aprovado para exportação. Esta estratégia obrigou os concorrentes a reconsiderar as suas dependências de hardware e influenciou a dinâmica do mercado no setor da IA.

A mais recente atualização R1-0528 aproxima o modelo da DeepSeek do desempenho dos modelos de raciocínio o3 da OpenAI e do Gemini 2.5 Pro da Google, com melhorias significativas na profundidade de raciocínio, capacidades de inferência e redução de alucinações. A contínua inovação da empresa e a sua abordagem open-source estão a redefinir as expectativas para o desenvolvimento e eficiência na implementação de modelos de IA.

Source:

Latest News