A NVIDIA está se preparando para reforçar sua posição no mercado de chips de IA com o lançamento iminente da arquitetura Blackwell Ultra, uma atualização significativa da plataforma Blackwell anunciada no início deste ano.
Embora a NVIDIA tenha dominado o mercado de treinamento de IA, a empresa enfrenta concorrência crescente no segmento de inferência, onde os modelos de IA são implantados para gerar respostas em vez de serem treinados. À medida que as aplicações de IA se tornam mais complexas e difundidas, especialistas do setor preveem que o mercado de inferência crescerá dramaticamente nos próximos anos, atraindo concorrentes dispostos a desafiar a liderança da NVIDIA. Diferentemente do treinamento de IA, que exige enorme poder computacional em data centers inteiros, as cargas de trabalho de inferência são mais diversas e podem ser processadas por diferentes hardwares especializados.
Os produtos baseados na Blackwell Ultra devem estar disponíveis por meio de parceiros a partir do segundo semestre de 2025. Grandes provedores de nuvem, incluindo Amazon Web Services, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure, estarão entre os primeiros a oferecer instâncias com Blackwell Ultra, seguidos por fabricantes de servidores como Dell, HPE, Lenovo e Supermicro, que lançarão suas próprias implementações.
A nova arquitetura utiliza a segunda geração do Transformer Engine da NVIDIA com tecnologia personalizada Blackwell Tensor Core, combinada com inovações do TensorRT-LLM e do NeMo Framework para acelerar tanto a inferência quanto o treinamento de grandes modelos de linguagem. Os Tensor Cores do Blackwell Ultra oferecem o dobro de aceleração em camadas de atenção e 1,5 vez mais FLOPS de computação em IA em comparação com as GPUs Blackwell padrão.
Segundo a NVIDIA, a família Blackwell Ultra atinge até 15 petaFLOPS de desempenho denso em ponto flutuante de 4 bits e até 288 GB de memória HBM3e por chip. Isso é especialmente relevante para inferência de IA, que é predominantemente limitada por memória — quanto mais memória disponível, maior o modelo que pode ser atendido. Ian Buck, vice-presidente de hyperscale e HPC da NVIDIA, afirma que o Blackwell Ultra permitirá que modelos de raciocínio sejam servidos com 10 vezes mais throughput em relação à geração Hopper anterior, reduzindo o tempo de resposta de mais de um minuto para apenas dez segundos.
A NVIDIA enfrenta concorrência crescente da AMD, que recentemente lançou sua série MI300 para cargas de trabalho de IA e conquistou adoção de empresas que buscam alternativas diante das restrições de fornecimento da NVIDIA. Em 2025, a AMD anunciou a aquisição de engenheiros de hardware e software de IA da Untether AI para fortalecer suas capacidades em inferência. A Amazon também demonstra ambições de controlar toda a pilha de infraestrutura de IA com seus chips Graviton4 e Trainium do Projeto Rainier, conseguindo treinar grandes modelos de IA como o Claude 4 em hardware não-NVIDIA.
Apesar desses desafios, analistas projetam que as vendas de data center da NVIDIA crescerão para US$ 200 bilhões em 2025, mantendo cerca de 80-85% de participação de mercado no curto prazo. A estratégia da empresa com o Blackwell Ultra parece focada em garantir sua posição no mercado de inferência, ao mesmo tempo em que continua inovando em capacidades de treinamento, potencialmente mudando a percepção de que os principais modelos de IA precisam depender exclusivamente do hardware da NVIDIA.