Comment l'IA a redynamisé le marché des infrastructures réseau

Le marché des infrastructures réseau connaît une dynamique et un intérêt sans précédent depuis des décennies, et l’intelligence artificielle promet de le rendre encore plus fascinant.

Une contribution de R. Scott Raynovich pour Forbes US – traduit par Lisa Deleforterie

L’IA est une grande consommatrice de données, que ce soit dans les infrastructures de cloud à grande échelle, en alimentant un modèle de langage étendu (LLM), ou dans les infrastructures périphériques. Ces systèmes doivent collecter et transmettre des données de manière sécurisée vers diverses destinations pour de nombreuses applications. Cela entraîne une demande accrue pour les connexions réseau.

Ce qui est intéressant avec l’IA, c’est qu’elle ne se contente pas de créer de nouveaux marchés pour le matériel et les logiciels d’infrastructure réseau, mais elle dynamise également les marchés réseaux traditionnels tels que les centres de données et les entreprises, en raison des nouvelles exigences en matière de données.

Tout cela pousse des dizaines d’acteurs du réseau à se positionner sur de nouveaux marchés, restés relativement statiques depuis des décennies. Cisco domine le marché du réseau depuis les débuts de la bulle Internet, avec une part de marché estimée entre 50 % et 60 % dans les marchés des réseaux d’entreprise et de centres de données. Ce manque de dynamisme concurrentiel a rendu le marché un peu monotone. Mais cela a commencé à changer ces dernières années, avec des concurrents comme Arista Networks prenant des parts de marché dans les réseaux cloud à grande échelle. La fusion imminente de Juniper Networks et HPE ajoute également une nouvelle dimension, avec cette combinaison pouvant potentiellement se hisser à la deuxième place du marché des réseaux. Avec Juniper accélérant sa feuille de route en matière de réseaux IA, elle deviendra un atout stratégique pour HPE. Parallèlement, Nvidia, le leader des puces pour infrastructures IA, a également développé sa propre pile réseau optimisée pour l’IA, prenant de l’avance sur les acteurs historiques des réseaux pour les charges de travail des LLM à grande échelle.

L’innovation dans le domaine des réseaux est également florissante. Des start-ups comme Arrcus et DriveNets abordent l’IA avec une approche basée sur du matériel modulable et des systèmes d’exploitation réseau conçus pour le cloud à grande échelle. Hedgehog et Aviz Networks exploitent le système d’exploitation réseau open source Software for Open Networking in the Cloud (SONiC) ainsi que des outils cloud comme Kubernetes. Et comme l’IA nécessite plus de connectivité pour traiter davantage de données, elle devrait stimuler les réseaux multicloud. Des start-ups prometteuses telles qu’Alkira, Aryaka, Aviatrix, Graphiant, Itential et Prosimo, entre autres, en bénéficieront.

Tout cela sera extrêmement bénéfique pour le marché. Les acheteurs de réseaux disposent désormais de plus d’options que jamais auparavant. Ils pourront choisir entre diverses approches, qu’il s’agisse d’une pile réseau complète fournie par le leader des infrastructures IA, Nvidia, des solutions de réseau avancées d’entreprises établies comme Cisco et HPE/Juniper, ou des solutions innovantes proposées par des start-ups.

Nous reviendrons plus tard sur la concurrence, mais commençons par analyser pourquoi les réseaux dédiés à l’IA ont des exigences particulières.

Pourquoi les réseaux d’IA constituent un nouveau marché

Il semble que les applications d’IA prendront de nombreuses formes, allant des grands modèles de langage (LLM) à d’autres cas d’utilisation, y compris les petits modèles de langage (SLM) utilisés dans des clouds privés pour des applications verticales spécifiques. Par exemple, l’IA peut être utilisée pour former un chatbot généralisé pour aider aux discussions et à l’écriture, mais elle peut également être utilisée pour développer des médicaments en utilisant des données personnalisées ou pour optimiser un site de fabrication.

La première chose à comprendre est que les réseaux IA ont souvent des exigences différentes de celles des réseaux traditionnels. La transition de l’informatique à usage général à l’informatique accélérée nécessite de nouveaux logiciels et architectures de réseaux distribués pour connecter, déplacer et traiter les données à des vitesses fulgurantes, avec une très faible latence et presque aucune tolérance à la perte de données.

La course à la construction de gigantesques clouds pour les grands modèles de langage (LLM) a également stimulé la demande de processeurs spécialisés tels que les SmartNICs, IPUs et DPUs, afin d’améliorer les performances des fonctions de réseau, de sécurité et de stockage des réseaux IA. Mais il y a d’autres domaines à surveiller : les acteurs du réseau utiliseront une variété d’architectures, de logiciels et de composants pour construire une infrastructure plus économique permettant d’accéder aux modèles IA, qu’ils soient à la périphérie ou dans le cloud. Qu’il s’agisse de connecter des puces au sein de superordinateurs, d’interconnecter des serveurs dans des clusters IA, ou de relier ces clusters à la périphérie du réseau, les technologies existantes doivent évoluer pour répondre aux exigences de performance des applications IA.

Futuriom a récemment consacré plusieurs mois à étudier les besoins des utilisateurs finaux en matière de charges de travail IA, détaillés dans un rapport complet sur les réseaux IA. Le marché commence déjà à se segmenter et se divise en deux catégories :

Entraînement : Il s’agit de l’étape où des LLM tels que ChatGPT, LLaMA, Claude AI et Mistral sont entraînés en exécutant à plusieurs reprises des milliards de paramètres contre des réseaux neuronaux pour créer un système qui reconnaît les mots, les images, les sons, etc. Ces LLM sont fondamentaux pour les applications IA. Les SLM nécessiteront également des solutions de réseau uniques.
Inférence : Il s’agit du processus d’adaptation d’un LLM ou SLM pour travailler avec des ensembles de données spécifiques afin de créer une application IA qui fournit des informations, résout un problème spécifique ou accomplit une tâche. Par exemple, une banque peut adapter Claude AI pour améliorer le service client aux distributeurs automatiques en utilisant le modèle sur des données anonymisées de plusieurs transactions. Cela est souvent appelé le « front end » de l’IA et nécessite également des capacités de traitement et de réseau plus proches du client.

L’entraînement et l’inférence nécessitent tous deux des fonctionnalités absentes des réseaux traditionnels ou à usage général en client-serveur, ou encore des réseaux de calcul haute performance (HPC) basés sur ce paradigme.

Les nouvelles exigences comprennent une capacité accrue (allant jusqu’à 400 Gb/s et 800 Gb/s), un débit plus élevé, une latence réduite, une fiabilité élevée, un accès plus rapide au stockage, un partitionnement de données optimisé et une utilisation élevée des ressources de calcul, pour n’en nommer que quelques-unes.

La rivalité technologique s’accélère

Alors que l’IA continue de captiver le monde des affaires avec son potentiel de gains de productivité et de nouveaux produits numériques, il est compréhensible qu’il y ait de l’excitation autour de la construction des infrastructures IA. Cependant, avec les gains de revenus et de productivité encore insaisissables, il s’agit d’un cycle de plusieurs années, voire de plusieurs décennies, dans lequel des changements de modèles d’affaires et d’architectures sont à prévoir.

Le marché des réseaux IA, représentant environ 10 à 15 % du budget total des infrastructures IA, atteindra certainement des milliards de dollars, bien qu’il soit encore à ses débuts. Jayshree Ullal, PDG d’Arista Networks, prévoit un revenu de 750 millions de dollars directement lié aux constructions IA pour l’année prochaine, avec une croissance rapide attendue par la suite.

Le marché des réseaux IA a souvent été perçu comme une opposition entre InfiniBand et Ethernet, en raison de l’avance initiale de Nvidia dans la connexion des GPU avec la technologie InfiniBand, réputée pour sa faible latence et l’absence de perte de données. Cependant, les solutions Ethernet commencent maintenant à émerger sur le marché, et Nvidia propose également des technologies basées sur Ethernet avec sa plateforme Spectrum-X. À mesure que de plus en plus de solutions Ethernet deviennent disponibles, les réseaux IA devraient s’étendre. Les SLM peuvent être adoptés par une grande variété d’entreprises verticales et ne nécessitent pas la puissance des LLM. Ils pourraient même être déployés dans des centres de données et des infrastructures privées. L’Ethernet, largement déployé et bien compris, peut tirer parti des économies d’échelle offertes par ses composants couramment disponibles.

À cette fin, l’Ethernet est adapté pour répondre aux besoins des réseaux IA pour des communications à latence réduite et sans perte, en le rendant plus semblable à InfiniBand, tout en tirant parti de l’économie de l’Ethernet. Une multitude de fournisseurs se sont regroupés pour former l’Ultra Ethernet Consortium (UEC), chargé d’introduire des améliorations à la norme Ethernet pour la rendre adaptée aux environnements IA exigeants, qu’ils soient grands ou petits. L’Ethernet a déjà été amélioré avec l’accès direct à la mémoire à distance (RDMA) sur le RoCE pour l’adapter aux besoins de l’IA. Et il va encore évoluer. La plupart des fournisseurs de réseaux prennent en charge RoCEv2, qui ajoute une variété d’améliorations à RoCE, y compris DCQCN (Data Center Quantized Congestion Notification), une technologie qui combine le contrôle de flux basé sur la priorité (PFC) et la notification explicite de congestion (ECN), ainsi que la gestion intelligente des files d’attente et des mémoires tampon. Certains fournisseurs ont également ajouté l’IA et l’apprentissage automatique à RoCEv2 pour améliorer les performances globales.

Le concept de réseau ouvert présente également de nombreux avantages. Les clients ont la possibilité de construire leurs propres réseaux en combinant des systèmes d’exploitation réseau et du matériel provenant de divers fournisseurs. Grâce à un solide portefeuille de puces commerciales proposées par des fabricants tels que Broadcom, Marvell et Intel, les experts en réseau peuvent utiliser du matériel standard et le coupler avec le système d’exploitation réseau de leur choix, y compris SONiC, une solution open source.

De grands fournisseurs de réseau établis tels qu’Arista, Cisco, Broadcom, Juniper, HPE et Nokia ont rejoint l’UEC pour poursuivre ces objectifs. Dans ce groupe, la prochaine fusion de Juniper et HPE est de grande envergure, donnant à la société de réseau combinée plus d’échelle, ce qui devrait en faire le numéro deux en part de marché derrière Cisco.

Les réseaux IA offrent également des opportunités supplémentaires pour les start-ups. Parmi elles, on trouve des fournisseurs de technologies basées sur SONiC, comme Aviz Networks et Hedgehog, ainsi que des start-ups se concentrant sur des systèmes extensibles et désagrégés basés sur leur propre système d’exploitation réseau, telles qu’Arrcus et la société israélienne DriveNets, qui propose déjà une solution de routage à très grande échelle pour le marché des télécommunications.

Il existe encore davantage de fournisseurs à surveiller dans ce domaine en plein essor. Par exemple, la start-up Enfabrica propose un commutateur haute performance pour les serveurs IA, améliorant les connexions de calcul, de réseau et de mémoire au sein des clusters. De plus, des entreprises comme Alkira, Aryaka, Aviatrix, Itential et Prosimo simplifient la création de connexions réseau sécurisées pour le transfert de données vers et depuis les sources IA.

Le boom des réseaux IA stimulera également le marché des équipements optiques, où des optiques à haute vitesse sont nécessaires pour soutenir l’augmentation de la bande passante. La position de leader de Ciena sur le marché de la connectivité optique, qui est tout à fait cohérente, offre une opportunité d’accélérer les interconnexions dans les centres de données. La société thaïlandaise Fabrinet est devenue très prisée des investisseurs en IA, enregistrant une forte croissance des composants optiques pour les applications IA, tout comme ses rivaux Coherent et Lumentum. Les actions du fabricant de fibres optiques Corning ont récemment grimpé de 10 % après une pré-annonce de résultats où l’entreprise a relevé ses prévisions de ventes pour le deuxième trimestre d’environ 200 millions de dollars, en grande partie grâce à une demande plus importante que prévu pour les connexions en fibre optique dans les centres de données exécutant des applications IA. C’est également un domaine où Cisco est bien positionné, avec ses propres composants optiques pouvant être intégrés à sa plateforme de puces Silicon One.

En tenant compte de tous ces éléments, nous assistons à une compétition passionnante pour le leadership des infrastructures réseau IA, promettant de nombreux rebondissements. Le secteur des réseaux n’a jamais été aussi fascinant.