Juniper AI-Native AHORA... ¿o MÁS TARDE?

por | 12 de marzo de 2024 | Blog, Eventos

En caso de que se lo haya perdido, Juniper organizó la semana pasada un evento web llamado IA-Nativa NOW. Pensé que podría presentar a Juniper como un competidor de Hedgehog por poseer la categoría de AI Network. Resulta que no tenemos que preocuparnos por Juniper como competidor de AI Network, al menos por ahora.

Fue un evento bien producido, pero las noticias se centraron sobre todo en que Juniper alcanzaba a Cisco en capacidad de AI Ops. Juniper también introdujo una interfaz de lenguaje natural para las operaciones de red, que en nuestra opinión es una característica que los clientes adoptarán después de haber cubierto las bases de la red de IA.

Red de Inteligencia Artificial Hedgehog

Nuestros clientes definen el Red AI como una red en la nube que:

  1. Satisface los requisitos exclusivos de las cargas de trabajo de IA con un tejido Ethernet de alto rendimiento.
  2. Facilita el funcionamiento de la infraestructura de nube de IA con una experiencia de usuario de nube familiar. Esta UX consiste en servicios en la nube fundacionales comparables a los que ofrecen AWS, Azure y GCP.
  3. Hace posible invertir en infraestructura de nube de IA privada con software de código abierto que reduce el capex y una solución totalmente automatizada que reduce el opex.

El anuncio de Juniper AI Native NOW aborda el requisito de la solución totalmente automatizada con AI Ops, pero no anunciaron nada que aborde los requisitos principales de AI Network para el rendimiento de la carga de trabajo de AI o la UX de la nube.

Operaciones de IA

El mensaje principal de AI Native NOW fue sobre AI Ops. AI Ops es la práctica de utilizar la recopilación de datos y el aprendizaje automático para establecer la línea base de las métricas de rendimiento de la red, identificar anomalías de rendimiento, correlacionar fallos de red con incidentes y correlacionar incidentes con anomalías de rendimiento. Los beneficios de AI Ops no se miden por los tiempos de finalización del trabajo de AI, sino por el tiempo medio para identificar los problemas, determinar la causa raíz y resolver las incidencias.

Operaciones de IA de Juniper

Juniper lo hace con su Niebla AI producto. Si examina la página del producto, verá que Juniper hace un gran trabajo de marketing de Mist como solución de garantía para Wi-Fi, redes cableadas, WAN, IoT y redes de acceso. Lo que falta para que sea un producto de red de IA es algo que mencione la orquestación de flujos o la gestión de la congestión para cargas de trabajo de IA. Esto, por supuesto, es lo que Hedgehog aborda con nuestra AI Network.

Cisco AI Ops

Juniper Mist AI está alcanzando la arquitectura de la solución de aseguramiento Eagle Eyes que ayudé a definir y construir en Cisco hace varios años. Heredamos un producto llamado Gestor de situaciones Crossworkque era un OEM de Cisco de Moogsoft. Juniper tiene razón al afirmar que la recopilación y el enriquecimiento de los datos de los dispositivos de red es una pieza importante del rompecabezas de AI Ops. Necesitábamos que Moogsoft se integrara con Pasarela de datos Crosswork para la recogida de datos, algo que realmente no querían hacer. Chris Menier tenía muchas más ganas de hacerlo con su Producto VIA AI Opsasí que le dimos la oportunidad de llevar adelante el proyecto. Más tarde añadimos Accedian a la solución de sondeo que prueba la red y genera más datos para la ingestión de AI Ops. Mist AI de Juniper parece una versión más ajustada de la solución AI Ops de Cisco.

Estrategia de garantía del erizo

Aunque AI Ops es realmente útil para operaciones eficientes de centros de datos en la nube, Hedgehog se centra en un plano de datos de alto rendimiento que evite los cuellos de botella de congestión creados por las cargas de trabajo de AI.

Gestión de la congestión para cargas de trabajo de IA

Nuestros objetivos para un tejido AI ethernet de alto rendimiento son:

  1. Gran ancho de banda efectivo
  2. Sin pérdida de paquetes
  3. Baja latencia

Con una carga de 95%, las redes de IA requieren una gestión del tráfico orquestada y controlada. Sin esto, las soluciones de operaciones de IA como Mist AI informarán de la congestión de la red y de anomalías en el rendimiento. Las redes que funcionan con un gran ancho de banda efectivo provocarán un uso injusto de la GPU debido a cargas incastadas, distribuciones de carga desalineadas y un amplio espectro de latencias de GPU a GPU. Esto dará lugar a una cola prolongada de cálculos retrasados que, a su vez, prolongará el tiempo de finalización de los trabajos. El plano de datos de IA de alto rendimiento de Hedgehog incluye una gestión del tráfico orquestada y controlada para ofrecer un uso eficiente de la GPU 95%.

Recogida y enriquecimiento de datos

Pila de observabilidad Hedgehog con recopilación, enriquecimiento e integración de datos en Prometheus y Grafana Loki

Pila de observabilidad Hedgehog con recopilación, enriquecimiento e integración de datos en Prometheus y Grafana Loki

Al tiempo que evitamos que se produzcan problemas de rendimiento de la IA, también recopilamos y enriquecemos los datos de todos los dispositivos de red a los que prestamos asistencia. Esto incluye conmutadores de Supermicro, Celestica, Redes Micas, Dell y Edgecore hoy. En un futuro muy próximo también incluirá DPU SmartNICs de NVIDIA, AMD, Marvell y Intel también. A continuación, integramos esos datos con herramientas de observabilidad nativas de la nube.

Herramientas de observabilidad nativas de la nube

La mayoría de nuestros clientes ya utilizan un conjunto común de herramientas nativas de la nube para la observabilidad en sus operaciones en la nube. Podríamos adoptar el mismo enfoque que Arista, Cisco y Juniper: crear cuadros de mando propios y cobrar a nuestros clientes por utilizarlos. En lugar de ello, estamos optando por un enfoque más favorable al cliente para operar una red en la nube a bajo coste. Simplemente introducimos los datos que recopilamos en las herramientas de código abierto nativas de la nube que nuestros clientes ya utilizan para sus operaciones en la nube. Estas herramientas incluyen Prometeo conjunto de herramientas de supervisión y alerta de sistemas, y el Grafana Loki pila de registro.

Marc Austin

Marc Austin

Marc Austin es el Consejero Delegado y fundador de Hedgehog. Marc es un zorro que sabe muchas cosas y un erizo que sabe una gran cosa. Como erizo sabe que millones de equipos de desarrollo nativos de la nube utilizarán los tejidos de red abiertos de Hedgehog para desplegar sus aplicaciones en la infraestructura distribuida de la nube. Como zorro sabe muchas cosas gracias a su experiencia liderando la estrategia de automatización a gran escala en Cisco, las redes de Internet de las Cosas en Jasper, la distribución de medios digitales en Amazon, el desarrollo de aplicaciones móviles fundando Canvas, el nacimiento de los smartphones en AT&T, los primeros viajes compartidos móviles fundando Mobiquity, la búsqueda en Internet en Infoseek, el comercio electrónico en Internet Shopping Network y liderar a la gente a través de la adversidad en el Ejército de los Estados Unidos.