NVIDIA se prépare à renforcer sa position sur le marché des puces d’IA avec la sortie prochaine de son architecture Blackwell Ultra, une mise à niveau majeure de la plateforme Blackwell annoncée plus tôt cette année.
Bien que NVIDIA domine le marché de l’entraînement des modèles d’IA, l’entreprise fait face à une concurrence croissante dans le secteur de l’inférence, où les modèles sont déployés pour générer des réponses plutôt que pour être entraînés. À mesure que les applications d’IA deviennent plus complexes et répandues, les experts de l’industrie prévoient une croissance spectaculaire du marché de l’inférence au cours des prochaines années, attirant des concurrents désireux de défier la suprématie de NVIDIA. Contrairement à l’entraînement, qui requiert une puissance de calcul massive à l’échelle des centres de données, les charges de travail d’inférence sont plus diversifiées et peuvent être traitées par divers matériels spécialisés.
Les produits basés sur Blackwell Ultra devraient être disponibles auprès des partenaires dès la seconde moitié de 2025. Les principaux fournisseurs de services infonuagiques, dont Amazon Web Services, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure, seront parmi les premiers à offrir des instances propulsées par Blackwell Ultra, suivis par des fabricants de serveurs comme Dell, HPE, Lenovo et Supermicro avec leurs propres solutions.
La nouvelle architecture exploite le moteur Transformer de deuxième génération de NVIDIA avec la technologie personnalisée Blackwell Tensor Core, combinée aux innovations TensorRT-LLM et au cadre NeMo pour accélérer à la fois l’inférence et l’entraînement des grands modèles de langage. Les Tensor Cores Blackwell Ultra offrent une accélération 2X des couches d’attention et 1,5X plus de FLOPS de calcul IA par rapport aux GPU Blackwell standards.
Selon NVIDIA, la famille Blackwell Ultra atteint jusqu’à 15 pétaFLOPS de performance dense en virgule flottante 4 bits et jusqu’à 288 Go de mémoire HBM3e par puce. Cela est particulièrement important pour l’inférence en IA, qui est principalement limitée par la mémoire : plus il y a de mémoire, plus le modèle pouvant être servi est grand. Ian Buck, vice-président de NVIDIA pour l’hyperscale et le calcul haute performance, affirme que Blackwell Ultra permettra de servir des modèles de raisonnement avec un débit 10 fois supérieur à la génération Hopper précédente, réduisant les temps de réponse de plus d’une minute à aussi peu que dix secondes.
NVIDIA fait face à une concurrence croissante de la part d’AMD, qui a récemment lancé sa série MI300 pour les charges de travail en IA et a gagné en adoption auprès d’entreprises cherchant des alternatives en raison des contraintes d’approvisionnement de NVIDIA. En 2025, AMD a annoncé l’acquisition d’ingénieurs en matériel et logiciels d’IA de Untether AI pour renforcer ses capacités en inférence. Amazon affiche également ses ambitions de contrôler l’ensemble de l’infrastructure IA avec ses puces Graviton4 et Trainium du projet Rainier, ayant réussi à entraîner d’importants modèles d’IA comme Claude 4 sur du matériel non-NVIDIA.
Malgré ces défis, les analystes prévoient que les ventes de centres de données de NVIDIA atteindront 200 milliards de dollars en 2025, maintenant une part de marché d’environ 80 à 85 % à court terme. La stratégie de l’entreprise avec Blackwell Ultra semble axée sur la consolidation de sa position sur le marché de l’inférence tout en continuant d’innover dans les capacités d’entraînement, remettant potentiellement en question l’idée que les meilleurs modèles d’IA doivent reposer exclusivement sur le matériel NVIDIA.