Juniper AI-Native MAINTENANT... ou PLUS TARD ?

par | 12 mars 2024 | Blog, Evénements

Au cas où vous l'auriez manqué, Juniper a organisé la semaine dernière un événement en ligne intitulé AI-Native NOW. J'ai pensé que Juniper deviendrait un concurrent du Hedgehog pour la catégorie des réseaux d'IA. Il s'avère que nous n'avons pas à nous soucier de Juniper en tant que concurrent du réseau d'IA, du moins pour l'instant.

L'événement a été bien produit, mais les nouvelles concernaient principalement le fait que Juniper rattrape Cisco en matière de capacité d'exploitation de l'IA. Juniper a également présenté une interface en langage naturel pour les opérations réseau, ce qui, à notre avis, est une fonctionnalité intéressante que les clients adopteront une fois qu'ils auront couvert les bases de l'AI Network.

Réseau Hedgehog AI

Nos clients définissent les Réseau AI comme un réseau en nuage qui :

  1. Répond aux exigences uniques des charges de travail d'IA grâce à une structure Ethernet haute performance.
  2. Facilite l'exploitation de l'infrastructure en nuage de l'IA grâce à une expérience utilisateur familière de l'informatique en nuage. Cette expérience consiste en des services cloud fondamentaux comparables à ceux offerts par AWS, Azure et GCP.
  3. Permet d'investir dans une infrastructure cloud privée d'IA avec un logiciel open-source qui réduit les dépenses et une solution entièrement automatisée qui réduit les dépenses d'exploitation.

L'annonce de Juniper AI Native NOW répond à l'exigence d'une solution entièrement automatisée avec AI Ops, mais elle n'a rien annoncé qui réponde aux exigences principales du réseau AI pour la performance de la charge de travail AI ou l'UX du nuage.

Opérations d'IA

Le message principal d'AI Native NOW portait sur les opérations d'intelligence artificielle. L'AI Ops est la pratique qui consiste à utiliser la collecte de données et l'apprentissage automatique pour définir les mesures de performance du réseau, identifier les anomalies de performance, établir une corrélation entre les défauts du réseau et les incidents, et établir une corrélation entre les incidents et les anomalies de performance. Les avantages de l'AI Ops ne sont pas mesurés par les temps d'exécution des tâches d'IA, mais par le temps moyen nécessaire pour identifier les problèmes, déterminer la cause première et résoudre les tickets.

Juniper AI Ops

C'est ce que fait Juniper avec son Mist AI produit. Si vous examinez cette page produit, vous verrez que Juniper fait un excellent travail de commercialisation de Mist en tant que solution d'assurance pour les réseaux Wi-Fi, câblés, WAN, IoT et d'accès. Ce qui manque cruellement pour qu'il s'agisse d'un produit de réseau d'IA, c'est tout ce qui mentionne l'orchestration des flux ou la gestion de la congestion pour les charges de travail d'IA. C'est bien sûr ce à quoi Hedgehog s'attaque avec notre AI Network.

Cisco AI Ops

L'IA de Juniper Mist rattrape l'architecture de la solution d'assurance Eagle Eyes que j'ai contribué à définir et à construire chez Cisco il y a plusieurs années. Nous avons hérité d'un produit appelé Gestionnaire de situations croiséesqui était un OEM de Cisco Moogsoft. Juniper a raison de dire que la collecte et l'enrichissement des données provenant des équipements de réseau constituent une pièce importante du puzzle des opérations d'IA. Nous avons demandé à Moogsoft de s'intégrer à Passerelle de données Crosswork pour la collecte de données, ce qu'ils ne voulaient vraiment pas faire. Chris Menier était beaucoup plus désireux de le faire avec son Produit VIA AI OpsNous lui avons donc donné la possibilité de poursuivre le projet. Plus tard, nous avons ajouté Accedian à la solution de sondage qui teste le réseau et génère plus de données pour l'ingestion AI Ops. La solution Mist AI de Juniper ressemble à une version plus étroite de la solution AI Ops de Cisco.

Stratégie d'assurance du hérisson

Si l'AI Ops est effectivement utile pour des opérations de centre de données cloud efficaces, Hedgehog se concentre sur un plan de données haute performance qui empêche les goulets d'étranglement de congestion créés par les charges de travail d'IA.

Gestion de la congestion pour les charges de travail de l'IA

Nos objectifs pour une tissu ethernet AI haute performance sont :

  1. Largeur de bande effective élevée
  2. Aucune perte de paquets
  3. Faible latence

Avec une charge de 95%, les réseaux d'IA ont besoin d'une gestion orchestrée et contrôlée du trafic. Sans cela, les solutions d'exploitation de l'IA telles que Mist AI signaleront effectivement la congestion du réseau et les anomalies de performance. Les réseaux fonctionnant avec une bande passante effective élevée conduiront à une utilisation inéquitable des GPU en raison de charges incast, de distributions de charges mal alignées et d'un large spectre de latences GPU-to-GPU. Il en résultera une longue queue de calculs retardés qui, à son tour, allongera le temps d'exécution des tâches. Le plan de données IA haute performance de Hedgehog comprend une gestion orchestrée et contrôlée du trafic afin de permettre une utilisation efficace du GPU à 95%.

Collecte et enrichissement des données

Pile d'observabilité Hedgehog avec collecte de données, enrichissement et intégration à Prometheus et Grafana Loki

Pile d'observabilité Hedgehog avec collecte de données, enrichissement et intégration à Prometheus et Grafana Loki

Tout en empêchant les problèmes de performance de l'IA de se produire, nous collectons et enrichissons les données de tous les dispositifs de réseau que nous prenons en charge. Cela inclut les commutateurs de Supermicro, Celestica, Réseaux Micas, Dell et Edgecore aujourd'hui. Dans un avenir très proche, il inclura également les DPU SmartNICs de NVIDIA, AMD, Marvell et Intel également. Nous intégrons ensuite ces données à des outils d'observabilité natifs dans le nuage.

Outils d'observabilité en nuage

La plupart de nos clients utilisent déjà un ensemble commun d'outils "cloud-native" pour l'observabilité de leurs opérations "cloud". Nous pourrions adopter la même approche qu'Arista, Cisco et Juniper : créer des tableaux de bord propriétaires et facturer leur utilisation à nos clients. Au lieu de cela, nous choisissons une approche plus conviviale pour exploiter un réseau en nuage à faible coût. Nous intégrons simplement les données que nous collectons dans les outils open-source et cloud-native que nos clients utilisent déjà pour leurs opérations cloud. Ces outils comprennent Prométhée la boîte à outils de surveillance et d'alerte des systèmes, et la boîte à outils de surveillance et d'alerte des systèmes Grafana Loki pile de journalisation.

Marc Austin

Marc Austin

Marc Austin est le directeur général et le fondateur de Hedgehog. Marc est un renard qui sait beaucoup de choses et un hérisson qui sait une grande chose. En tant que hérisson, il sait que des millions d'équipes de développement "cloud native" utiliseront les tissus de réseau ouverts Hedgehog pour déployer leurs applications sur une infrastructure "cloud" distribuée. En tant que renard, il sait beaucoup de choses grâce à son expérience de la stratégie d'automatisation à grande échelle chez Cisco, de la mise en réseau de l'Internet des objets chez Jasper, de la diffusion de médias numériques chez Amazon, du développement d'applications mobiles en fondant Canvas, de la naissance des smartphones chez AT&T, des débuts du covoiturage mobile en fondant Mobiquity, de la recherche sur Internet chez Infoseek, du commerce électronique chez Internet Shopping Network et de la direction de personnes dans l'adversité dans l'armée américaine.