NVIDIA s’apprête à renforcer sa position sur le marché des puces IA avec la sortie prochaine de son architecture Blackwell Ultra, une évolution majeure de la plateforme Blackwell annoncée plus tôt cette année.
Si NVIDIA domine le marché de l’entraînement des modèles IA, l’entreprise fait face à une concurrence croissante dans le domaine de l’inférence, où les modèles sont déployés pour générer des réponses plutôt que pour être entraînés. À mesure que les applications d’IA deviennent plus complexes et répandues, les experts du secteur prévoient une croissance spectaculaire du marché de l’inférence dans les prochaines années, attirant des concurrents désireux de remettre en cause la suprématie de NVIDIA. Contrairement à l’entraînement, qui nécessite une puissance de calcul colossale à l’échelle des centres de données, les charges de travail d’inférence sont plus variées et peuvent être traitées par différents matériels spécialisés.
Les produits basés sur Blackwell Ultra devraient être disponibles chez les partenaires à partir du second semestre 2025. Les principaux fournisseurs de cloud, dont Amazon Web Services, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure, proposeront parmi les premiers des instances équipées de Blackwell Ultra, suivis par des fabricants de serveurs comme Dell, HPE, Lenovo et Supermicro avec leurs propres implémentations.
La nouvelle architecture exploite le moteur Transformer de seconde génération de NVIDIA associé à la technologie personnalisée Blackwell Tensor Core, ainsi qu’aux innovations TensorRT-LLM et NeMo Framework pour accélérer à la fois l’inférence et l’entraînement des grands modèles de langage. Les Tensor Cores Blackwell Ultra offrent une accélération 2 fois supérieure des couches d’attention et 1,5 fois plus de FLOPS de calcul IA que les GPU Blackwell standards.
Selon NVIDIA, la famille Blackwell Ultra atteint jusqu’à 15 pétaFLOPS en calcul dense à virgule flottante 4 bits et jusqu’à 288 Go de mémoire HBM3e par puce. Cela revêt une importance particulière pour l’inférence IA, qui dépend principalement de la mémoire disponible : plus il y a de mémoire, plus le modèle servi peut être volumineux. Ian Buck, vice-président hyperscale et HPC de NVIDIA, affirme que Blackwell Ultra permettra de servir des modèles de raisonnement avec un débit 10 fois supérieur à celui de la génération Hopper, réduisant les temps de réponse de plus d’une minute à seulement dix secondes.
NVIDIA fait face à une concurrence croissante d’AMD, qui a récemment lancé sa série MI300 pour les charges IA et séduit des entreprises en quête d’alternatives face aux contraintes d’approvisionnement de NVIDIA. En 2025, AMD a annoncé l’acquisition d’ingénieurs matériels et logiciels IA d’Untether AI pour renforcer ses capacités d’inférence. Amazon affiche également ses ambitions de maîtriser toute la pile d’infrastructure IA avec ses puces Graviton4 et Trainium du projet Rainier, parvenant à entraîner des modèles majeurs comme Claude 4 sur du matériel non-NVIDIA.
Malgré ces défis, les analystes prévoient que les ventes de NVIDIA dans les centres de données atteindront 200 milliards de dollars en 2025, maintenant une part de marché d’environ 80 à 85 % à court terme. La stratégie de l’entreprise avec Blackwell Ultra semble viser à sécuriser sa position sur le marché de l’inférence tout en poursuivant l’innovation dans l’entraînement, remettant potentiellement en cause l’idée selon laquelle les meilleurs modèles IA doivent impérativement reposer sur du matériel NVIDIA.