A NVIDIA está a preparar-se para reforçar a sua posição no mercado de chips para IA com o lançamento iminente da arquitetura Blackwell Ultra, uma atualização significativa da plataforma Blackwell anunciada no início deste ano.
Embora a NVIDIA tenha dominado o mercado de treino de IA, a empresa enfrenta uma concorrência crescente no segmento de inferência, onde os modelos de IA são implementados para gerar respostas em vez de serem treinados. À medida que as aplicações de IA se tornam mais complexas e generalizadas, especialistas do setor preveem que o mercado de inferência irá crescer dramaticamente nos próximos anos, atraindo concorrentes ansiosos por desafiar a liderança da NVIDIA. Ao contrário do treino de IA, que exige um enorme poder computacional em centros de dados inteiros, as cargas de trabalho de inferência são mais diversificadas e podem ser tratadas por vários tipos de hardware especializado.
Espera-se que os produtos baseados em Blackwell Ultra estejam disponíveis através de parceiros a partir da segunda metade de 2025. Os principais fornecedores de cloud, incluindo Amazon Web Services, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure, estarão entre os primeiros a disponibilizar instâncias alimentadas por Blackwell Ultra, seguindo-se fabricantes de servidores como Dell, HPE, Lenovo e Supermicro com as suas próprias implementações.
A nova arquitetura tira partido da segunda geração do Transformer Engine da NVIDIA com tecnologia personalizada Blackwell Tensor Core, combinada com inovações do TensorRT-LLM e do NeMo Framework para acelerar tanto a inferência como o treino de grandes modelos de linguagem. Os Blackwell Ultra Tensor Cores oferecem o dobro da aceleração na camada de atenção e 1,5 vezes mais FLOPS de computação em IA em comparação com as GPUs Blackwell standard.
Segundo a NVIDIA, a família Blackwell Ultra atinge até 15 petaFLOPS de desempenho denso em vírgula flutuante de 4 bits e até 288 GB de memória HBM3e por chip. Isto é especialmente relevante para a inferência em IA, que é sobretudo uma carga de trabalho limitada pela memória — quanto mais memória disponível, maior o modelo que pode ser servido. Ian Buck, vice-presidente de hyperscale e HPC da NVIDIA, afirma que o Blackwell Ultra permitirá servir modelos de raciocínio com um débito 10 vezes superior ao da geração Hopper anterior, reduzindo os tempos de resposta de mais de um minuto para apenas dez segundos.
A NVIDIA enfrenta uma concorrência crescente da AMD, que lançou recentemente a sua série MI300 para cargas de trabalho de IA e tem conquistado adoção por parte de empresas que procuram alternativas devido a constrangimentos de fornecimento da NVIDIA. Em 2025, a AMD anunciou a aquisição de engenheiros de hardware e software de IA da Untether AI para reforçar as suas capacidades de inferência. A Amazon também demonstra ambições de controlar toda a pilha de infraestrutura de IA com os seus chips Graviton4 e Trainium do Project Rainier, tendo treinado com sucesso grandes modelos de IA como o Claude 4 em hardware não-NVIDIA.
Apesar destes desafios, analistas projetam que as vendas de data center da NVIDIA cresçam para 200 mil milhões de dólares em 2025, mantendo uma quota de mercado de cerca de 80-85% no curto prazo. A estratégia da empresa com o Blackwell Ultra parece focada em garantir a sua posição no mercado de inferência, continuando a inovar nas capacidades de treino e podendo alterar a perceção de que os melhores modelos de IA têm de depender exclusivamente de hardware NVIDIA.