L'IA a besoin d'un nouveau réseau

par | 22 février 2024 | Blog, Evénements

La plupart des investisseurs associent NVIDIA aux GPU et considèrent les GPU comme l'ingrédient clé de l'infrastructure cloud d'IA. Mais ce n'est qu'une partie du tableau de l'infrastructure d'IA. Les investisseurs doivent également comprendre le rôle des réseaux pour l'IA. Les investisseurs avisés devraient prêter attention à certains des détails les plus fins de la conférence d'hier sur l'IA. Appel aux résultats de NVIDIA.  

La mise en réseau représente un tiers du coût d'un centre de données d'IA

NVIDIA a réalisé un nouveau trimestre exceptionnel en annonçant un chiffre d'affaires de 18,4 milliards de dollars pour les centres de données, en hausse de 271 millions de tonnes par rapport au trimestre précédent et de 2651 millions de tonnes par rapport à l'année précédente. NVIDIA a également annoncé un chiffre d'affaires de 1,4 milliard de tonnes pour les réseaux, contre 1,4 milliard de tonnes au trimestre précédent, soit une augmentation de 3,0 % en glissement annuel. L'ARR des réseaux représente désormais 27% du chiffre d'affaires total des centres de données !

Pourquoi l'IA a-t-elle besoin d'un nouveau réseau ?

M. Jensen a déclaré à plusieurs reprises que l'IA avait besoin d'un nouveau réseau. Nous avons entendu la même chose de la part d'innombrables clients qui construisent une infrastructure d'IA en nuage. Les nouveaux fournisseurs de services d'IA en nuage, les nuages d'IA d'entreprise et les nuages d'IA souverains ont tous besoin de nouveaux réseaux qui maximisent l'utilisation des ressources GPU coûteuses. Cela se résume à trois exigences de performance, ainsi qu'à un certain nombre d'exigences liées à l'expérience de l'utilisateur du nuage et à d'autres exigences frontales.

L'IA a besoin d'un nouveau réseau. Hedgehog est le réseau de l'IA.

L'IA a besoin d'un nouveau réseau. Hedgehog est le réseau de l'IA.

1. Largeur de bande effective élevée

L'IA a besoin d'une bande passante efficace élevée. Si vous déployez un réseau de 400G ou 800G, vous vous attendez à obtenir une bande passante de 400G ou 800G 95% du temps. Les charges de travail de formation et de réglage fin de l'IA créent de la congestion, la congestion ralentit la bande passante effective, et les réseaux lents entraînent une durée plus longue de la formation et du réglage fin. Le temps, c'est de l'argent, en particulier avec le temps coûteux du GPU.

2. Aucune perte de paquets

L'IA a besoin de 100% de paquets pour atteindre sa destination. Les réseaux TCP/IP traditionnels signalent la congestion par la perte de paquets. La perte de paquets entraîne l'interruption ou l'échec des charges de travail de l'IA. Le redémarrage d'une charge de travail au dernier point de contrôle est bien sûr coûteux. Le temps, c'est de l'argent, surtout avec le temps coûteux du GPU.

3. Faible latence

L'objectif de la formation et de la mise au point est l'inférence de l'IA. Pour offrir à l'utilisateur une bonne expérience, comme s'il parlait avec un copilote, l'IA a besoin d'une latence ultra-faible. La plupart des consommateurs considèrent que l'expérience utilisateur est acceptable lorsque la latence du réseau est inférieure à 40 ms.

Infiniband répond aux besoins de formation à un prix élevé

Environ 50% du chiffre d'affaires de NVIDIA au quatrième trimestre a été réalisé auprès des fournisseurs de services cloud de niveau 1 et des sociétés Internet grand public. Il s'agit en fait des mêmes comptes qui sont en concurrence sur deux marchés différents. Les sociétés Internet grand public disposent de budgets de plusieurs milliards de dollars pour former de nouveaux modèles d'IA générative dans le cadre d'une course aux armements visant à définir l'expérience utilisateur de la prochaine génération. Elles consomment l'infrastructure cloud d'IA de leurs départements CSP qui peuvent se permettre de dépenser des milliards de dollars dans les produits de réseau Infiniband de NVIDIA. Infiniband répond aux besoins de performances élevées de ce segment de clientèle à un coût élevé.

Les nuages d'IA d'entreprise et souverains ne disposent pas de budgets illimités. Elles ont besoin d'un nouveau réseau qui réponde à leurs besoins pour affiner les modèles d'IA générative avec leurs propres données. Les données sont l'or de la ruée vers l'or de l'IA. La confidentialité et la protection des données sont primordiales pour les entreprises et les clients souverains des nuages d'IA. Cela pousse de nombreuses entreprises et de nombreux gouvernements à construire leur propre infrastructure d'IA ou à la louer à de nouveaux fournisseurs de services en nuage qui ne leur font pas concurrence en tant qu'entreprises internet grand public. Ils ont besoin d'un nouveau réseau d'IA qui offre les performances d'Infiniband avec les caractéristiques d'Ethernet. Nous pouvons généralement résumer les caractéristiques d'Ethernet comme une expérience utilisateur dans le nuage.

L'inférence de l'IA devient la charge de travail dominante

Ethernet et TCP/IP sont les normes de mise en réseau qui régissent tout ce qui se trouve sur l'internet, dans nos foyers et sur nos lieux de travail. Ethernet est le réseau que vous utilisez en ce moment même pour lire ce billet de blog. Lorsque vous utilisez l'IA générative comme ChatGPT, vous utilisez Ethernet.

NVIDIA estime que 40% de son chiffre d'affaires du quatrième trimestre pour les centres de données ont été consacrés à l'inférence de l'IA. Cela a surpris des analystes intelligents comme Joe Moore de Morgan Stanley qui a demandé des précisions sur cette estimation. Il en résulte que le marché aura besoin de plus d'Ethernet et de moins d'Infiniband à mesure que les charges de travail de l'IA passeront de l'entraînement à la mise au point et à l'inférence. Et cela se produit plus rapidement que ne le prévoyaient de nombreux investisseurs.

Le réglage fin et l'inférence de l'IA nécessitent un réseau Ethernet très performant

NVIDIA a annoncé que Spectrum X est son architecture de référence pour l'AI Ethernet. Elle utilise une combinaison de SmartNIC NVIDIA Bluefield 3 DPU, de commutateurs NVIDIA Spectrum et de logiciels pour fournir un réseau Ethernet de haute performance. Les investisseurs avisés devraient s'attendre à ce que Spectrum X représente une part plus importante du futur ARR des réseaux de NVIDIA.

L'entreprise et l'IA souveraine ont besoin d'une expérience utilisateur dans le nuage

L'IA a besoin d'un réseau avec une expérience utilisateur en nuage. La plupart des projets d'entreprise et d'IA souveraine auront plusieurs locataires. Ces locataires sont des équipes de développement, des applications ou des groupes d'utilisateurs différents pour l'infrastructure en nuage du GPU. Les nouveaux réseaux d'IA en nuage doivent offrir la même expérience utilisateur en nuage que celle dont tout le monde bénéficie avec les Big 3. Les locataires multiples ont besoin Cloud privé virtuel des services de confidentialité et de sécurité. Ils ont besoin de services de passerelle pour la communication VPC entre les locataires et les sites, combinés à des services d'équilibrage de charge et de sécurité.

Le hérisson est le réseau de l'IA

Hedgehog est le réseau d'IA pour les constructeurs de clouds servant des charges de travail d'IA. Nous fournissons un logiciel de réseau haute performance qui fonctionne avec l'architecture de référence NVIDIA Spectrum X pour une bande passante efficace élevée, une perte de paquets nulle et une faible latence. Hedgehog offre une expérience utilisateur en nuage qui facilite l'exploitation et l'utilisation des réseaux d'IA en nuage. Notre logiciel est ouvert et automatisé afin que nos clients puissent acquérir des équipements à moindre coût d'investissement et les exploiter à moindre coût d'exploitation. Hérisson logiciel libre donne aux clients la liberté de choisir leur fournisseur de matériel et de contrôler leur destinée logicielle. Nos clients peuvent choisir le matériel NVIDIA, mais aussi AMD, Intel, Marvell, Supermicro, Celestica, Dell ou Edgecore pour leur réseau d'IA. Grâce à des opérations de réseau entièrement automatisées, nos clients peuvent mettre en réseau comme des hyper-scalers avec un faible coût d'exploitation et une capacité de cloud dynamique.

 

Marc Austin

Marc Austin

Marc Austin est le directeur général et le fondateur de Hedgehog. Marc est un renard qui sait beaucoup de choses et un hérisson qui sait une grande chose. En tant que hérisson, il sait que des millions d'équipes de développement "cloud native" utiliseront les tissus de réseau ouverts Hedgehog pour déployer leurs applications sur une infrastructure "cloud" distribuée. En tant que renard, il sait beaucoup de choses grâce à son expérience de la stratégie d'automatisation à grande échelle chez Cisco, de la mise en réseau de l'Internet des objets chez Jasper, de la diffusion de médias numériques chez Amazon, du développement d'applications mobiles en fondant Canvas, de la naissance des smartphones chez AT&T, des débuts du covoiturage mobile en fondant Mobiquity, de la recherche sur Internet chez Infoseek, du commerce électronique chez Internet Shopping Network et de la direction de personnes dans l'adversité dans l'armée américaine.