La IA necesita una nueva red

por | 22 de febrero de 2024 | Blog, Eventos

La mayoría de los inversores asocian a NVIDIA con las GPU y las reconocen como el ingrediente clave de la infraestructura de IA en la nube. Pero eso es solo una parte de la infraestructura de IA. Los inversores también deben comprender el papel que desempeñan las redes en la IA. Los inversores inteligentes deberían prestar atención a algunos de los detalles más sutiles de la conferencia de ayer. Convocatoria de resultados de NVIDIA.  

Las redes suponen un tercio del coste de un centro de datos de IA

NVIDIA ha vuelto a registrar un excelente trimestre, con 18.400 millones de euros de ingresos por centros de datos, 27% más que en el trimestre anterior y 265% más que en el mismo periodo del año anterior. También registró unos ingresos de explotación de redes de 13.000 millones de PTP, frente a los 10.000 millones del trimestre anterior y el triple interanual. El ARR de redes representa ahora 27% de los ingresos totales de los centros de datos.

¿Por qué necesita la IA una nueva red?

Jensen ha afirmado en varias ocasiones que la IA necesita una nueva red. Hemos oído lo mismo de innumerables clientes que están construyendo infraestructuras de IA en la nube. Los nuevos proveedores de servicios de IA en la nube, las nubes de IA empresariales y las nubes de IA soberanas necesitan nuevas redes que maximicen la utilización de los costosos recursos de la GPU. Esto se reduce a 3 requisitos de rendimiento, así como a una serie de experiencia de usuario de la nube con varios requisitos más de front-end.

La IA necesita una nueva red. Hedgehog es la red de la IA.

La IA necesita una nueva red. Hedgehog es la red de la IA.

1. Gran ancho de banda efectivo

La IA necesita un gran ancho de banda efectivo. Si despliega una red de 400 G u 800 G, espera obtener un ancho de banda de 400 G u 800 G el 95% del tiempo. Las cargas de trabajo de formación y ajuste fino de la IA crean congestión, la congestión ralentiza el ancho de banda efectivo y las redes lentas provocan una mayor duración de la formación y el ajuste fino. El tiempo es oro, sobre todo con el costoso tiempo de la GPU.

2. Cero pérdida de paquetes

AI necesita 100% de paquetes para llegar a su destino. Las redes TCP/IP tradicionales señalan la congestión con la pérdida de paquetes. La pérdida de paquetes hace que las cargas de trabajo de IA se detengan o fallen. Reiniciar una carga de trabajo en el último punto de control es, por supuesto, caro. El tiempo es oro, sobre todo con el costoso tiempo de la GPU.

3. Baja latencia

El objetivo de la formación y el ajuste fino es la inferencia de la IA. Para ofrecer una buena experiencia de usuario, como hablar con un copiloto, la IA necesita una latencia ultrabaja. La mayoría de los consumidores consideran aceptable la experiencia del usuario cuando la latencia de la red es inferior a 40 ms.

Infiniband satisface las necesidades de formación a un precio superior

Aproximadamente 50% de los ingresos del cuarto trimestre de NVIDIA se reservaron a proveedores de servicios en la nube de primer nivel y empresas de Internet de consumo. En realidad, se trata de las mismas cuentas compitiendo en dos mercados diferentes. Las empresas de Internet de consumo tienen presupuestos multimillonarios para entrenar nuevos modelos generativos de IA en una carrera armamentística por definir la experiencia de usuario de la próxima generación. Consumen infraestructura de nube de IA de sus departamentos de CSP, que pueden permitirse gastar miles de millones de dólares en productos de red Infiniband de NVIDIA. Infiniband satisface las necesidades de alto rendimiento de este segmento de clientes a un coste elevado.

Las nubes de IA empresariales y soberanas no disponen de presupuestos ilimitados. Necesitan una nueva red que satisfaga sus necesidades para afinar los modelos generativos de IA con sus propios datos. Los datos son el oro en la fiebre del oro de la IA. La privacidad y la protección de los datos son primordiales para las empresas y los clientes soberanos de nubes de IA. Esto lleva a muchas empresas y gobiernos a construir su propia infraestructura de IA o a alquilarla a nuevos proveedores de servicios en la nube que no compiten con ellos como empresas de Internet de consumo. Necesitan una nueva red de IA que ofrezca el rendimiento de Infiniband con las características de Ethernet. En general, podemos resumir las características de Ethernet como una experiencia de usuario en la nube.

La inferencia de IA se está convirtiendo en la carga de trabajo dominante

Ethernet y TCP/IP son los estándares de red que hacen funcionar todo en Internet, en nuestros hogares y en nuestros lugares de trabajo. Ethernet es la red que estás utilizando ahora mismo para leer esta entrada del blog. Cuando usas IA generativa como ChatGPT, estás usando Ethernet.

NVIDIA estima que 40% de sus ingresos del cuarto trimestre por centros de datos fueron por inferencia de IA. Esto sorprendió a analistas inteligentes como Joe Moore de Morgan Stanley que pidieron información sobre esta estimación. La consecuencia es que el mercado necesitará más Ethernet y menos Infiniband a medida que las cargas de trabajo de IA pasen de la formación al ajuste y la inferencia. Y esto está ocurriendo más rápido de lo que muchos inversores esperaban.

El ajuste fino y la inferencia de la IA necesitan una Ethernet de alto rendimiento

NVIDIA ha anunciado que Spectrum X es su arquitectura de referencia para AI Ethernet. Utiliza una combinación de NVIDIA Bluefield 3 DPU SmartNIC, NVIDIA Spectrum Switches y software para proporcionar una red Ethernet de alto rendimiento. Los inversores más avispados deberían esperar que Spectrum X represente una mayor proporción de las futuras ARR de redes de NVIDIA.

La IA empresarial y soberana necesita una experiencia de usuario en la nube

La IA necesita una red con una experiencia de usuario en la nube. La mayoría de los proyectos de IA empresariales y soberanos tendrán varios inquilinos. Estos inquilinos son diferentes equipos de desarrollo o aplicaciones o grupos de usuarios para la infraestructura de nube GPU. Las redes en la nube de IA emergentes necesitan ofrecer la misma experiencia de usuario en la nube que todo el mundo disfruta con las 3 Grandes. Los inquilinos múltiples necesitan Nube privada virtual servicios de privacidad y seguridad. Necesitan servicios de pasarela para la comunicación VPC entre inquilinos y ubicaciones, combinados con servicios de equilibrio de carga y seguridad.

Hedgehog es la red de IA

Hedgehog es la red de IA para los creadores de nubes que sirven cargas de trabajo de IA. Proporcionamos un software de red de alto rendimiento que funciona con la arquitectura de referencia NVIDIA Spectrum X para un ancho de banda efectivo elevado, sin pérdida de paquetes y con baja latencia. Hedgehog ofrece una experiencia de usuario de nube que facilita el funcionamiento y el uso de las redes de nube de IA. Nuestro software es abierto y automatizado para que nuestros clientes puedan adquirir equipos con menos gastos de capital y utilizarlos con menos gastos de explotación. Erizo software de código abierto ofrece a los clientes la libertad de elegir su proveedor de hardware y controlar su destino de software. Nuestros clientes pueden elegir hardware de NVIDIA, pero también equipos de AMD, Intel, Marvell, Supermicro, Celestica, Dell o Edgecore para su red de IA. Con operaciones de red totalmente automatizadas, nuestros clientes pueden trabajar en red como hiperescaladores con bajo coste operativo y capacidad de nube dinámica.

 

Marc Austin

Marc Austin

Marc Austin es el Consejero Delegado y fundador de Hedgehog. Marc es un zorro que sabe muchas cosas y un erizo que sabe una gran cosa. Como erizo sabe que millones de equipos de desarrollo nativos de la nube utilizarán los tejidos de red abiertos de Hedgehog para desplegar sus aplicaciones en la infraestructura distribuida de la nube. Como zorro sabe muchas cosas gracias a su experiencia liderando la estrategia de automatización a gran escala en Cisco, las redes de Internet de las Cosas en Jasper, la distribución de medios digitales en Amazon, el desarrollo de aplicaciones móviles fundando Canvas, el nacimiento de los smartphones en AT&T, los primeros viajes compartidos móviles fundando Mobiquity, la búsqueda en Internet en Infoseek, el comercio electrónico en Internet Shopping Network y liderar a la gente a través de la adversidad en el Ejército de los Estados Unidos.