KI braucht ein neues Netz

von | 22. Februar 2024 | Blog, Veranstaltungen

Die meisten Investoren assoziieren NVIDIA mit Grafikprozessoren (GPUs) und erkennen GPUs als Schlüsselkomponente für die KI-Cloud-Infrastruktur. Aber das ist nur ein Teil des Bildes von der KI-Infrastruktur. Investoren müssen auch die Rolle von Netzwerken für KI verstehen. Kluge Investoren sollten auf einige der feineren Details der gestrigen NVIDIA Ergebnisgespräch.  

Netzwerke machen ein Drittel der Kosten eines KI-Rechenzentrums aus

NVIDIA lieferte ein weiteres großartiges Quartal ab und meldete einen Umsatz von $18,4 Milliarden im Bereich Rechenzentren, 27% mehr als im Vorquartal und 265% mehr als im Vorjahr. NVIDIA meldete auch $13 Milliarden ARR im Netzwerkbereich, ein Anstieg von $10 Milliarden im Vorquartal und eine Verdreifachung im Jahresvergleich. Der Anteil der ARR im Netzwerkbereich am Gesamtumsatz der Rechenzentren beträgt jetzt 27%!

Warum braucht die KI ein neues Netz?

Jensen hat mehrfach erklärt, dass KI ein neues Netzwerk braucht. Wir haben dasselbe von unzähligen Kunden gehört, die eine KI-Cloud-Infrastruktur aufbauen. Neue Anbieter von KI-Cloud-Diensten, KI-Clouds für Unternehmen und KI-Clouds für Staaten benötigen alle neue Netzwerke, die die Nutzung der teuren GPU-Ressourcen maximieren. Dabei geht es um drei Leistungsanforderungen sowie eine Reihe von Cloud-Nutzererfahrungen mit mehreren weiteren Front-End-Anforderungen.

KI braucht ein neues Netz. Hedgehog ist das KI-Netzwerk.

KI braucht ein neues Netz. Hedgehog ist das KI-Netzwerk.

1. Hohe effektive Bandbreite

KI benötigt eine hohe effektive Bandbreite. Wenn Sie ein 400G- oder 800G-Netzwerk bereitstellen, erwarten Sie, dass Sie 95% der Zeit eine 400G- oder 800G-Bandbreite erhalten. KI-Trainings- und Feinabstimmungs-Workloads verursachen Staus, Staus verlangsamen die effektive Bandbreite, und langsame Netzwerke führen zu längeren Trainings- und Feinabstimmungszeiten. Zeit ist Geld, insbesondere bei teurer GPU-Zeit.

2. Kein Paketverlust

AI benötigt 100% an Paketen, um ihr Ziel zu erreichen. Herkömmliche TCP/IP-Netze signalisieren eine Überlastung durch Paketverluste. Paketverluste führen dazu, dass KI-Workloads pausieren oder ausfallen. Der Neustart eines Workloads am letzten Kontrollpunkt ist natürlich teuer. Zeit ist Geld, insbesondere bei teurer GPU-Zeit.

3. Niedrige Latenzzeit

Das Ziel für Training und Feinabstimmung ist die KI-Inferenz. Um ein gutes Nutzererlebnis wie bei einem Gespräch mit einem Co-Piloten zu bieten, benötigt die KI eine extrem niedrige Latenzzeit. Die meisten Verbraucher finden das Nutzererlebnis akzeptabel, wenn die Netzwerklatenz weniger als 40 ms beträgt.

Infiniband erfüllt Schulungsanforderungen zu einem erstklassigen Preis

Etwa 50% des Umsatzes von NVIDIA im 4. Quartal gingen an Tier-1-Cloud-Service-Provider und Internetunternehmen. Dabei handelt es sich in Wirklichkeit um dieselben Kunden, die auf zwei verschiedenen Märkten konkurrieren. Consumer-Internet-Unternehmen verfügen über Multi-Milliarden-Dollar-Budgets, um in einem Wettrüsten neue generative KI-Modelle zu trainieren und die nächste Generation von Benutzererfahrungen zu definieren. Sie nutzen die KI-Cloud-Infrastruktur ihrer CSP-Abteilungen, die es sich leisten können, Milliarden von Dollar für die Infiniband-Netzwerkprodukte von NVIDIA auszugeben. Infiniband erfüllt die hohen Leistungsanforderungen für dieses Kundensegment zu einem hohen Preis.

Unternehmen und staatliche KI-Clouds verfügen nicht über unbegrenzte Budgets. Sie brauchen ein neues Netzwerk, das ihre Anforderungen an die Feinabstimmung generativer KI-Modelle mit ihren eigenen Daten erfüllt. Daten sind das Gold im KI-Goldrausch. Datenschutz und Datensicherheit sind für Unternehmen und staatliche KI-Cloud-Kunden von größter Bedeutung. Dies veranlasst viele Unternehmen und Regierungen dazu, ihre eigene KI-Infrastruktur aufzubauen oder sie von neuen Cloud-Service-Anbietern zu mieten, die nicht mit ihnen als Internetunternehmen für Verbraucher konkurrieren. Sie benötigen ein neues KI-Netzwerk, das die Leistung von Infiniband mit den Funktionen von Ethernet verbindet. Wir können die Funktionen von Ethernet im Allgemeinen als Cloud-Benutzererfahrung zusammenfassen.

KI-Inferenz wird zur dominierenden Arbeitsbelastung

Ethernet und TCP/IP sind die Netzwerkstandards, über die alles im Internet, in unseren Wohnungen und an unseren Arbeitsplätzen läuft. Ethernet ist das Netzwerk, das Sie gerade benutzen, um diesen Blogbeitrag zu lesen. Wenn Sie generative KI wie ChatGPT verwenden, nutzen Sie Ethernet.

NVIDIA schätzt, dass 40% seines Umsatzes im vierten Quartal für KI-Inferenzen verwendet wurden. Dies überraschte kluge Analysten wie Joe Moore von Morgan Stanley die um eine genauere Beschreibung dieser Schätzung gebeten haben. Daraus ergibt sich, dass der Markt mehr Ethernet und weniger Infiniband benötigen wird, da sich die KI-Arbeitslasten vom Training zur Feinabstimmung und Inferenz verlagern. Und dies geschieht schneller, als viele Investoren erwartet haben.

KI-Feinabstimmung und -Schlussfolgerungen erfordern ein leistungsstarkes Ethernet

NVIDIA gab bekannt, dass Spectrum X die Referenzarchitektur für AI Ethernet ist. Es verwendet eine Kombination aus NVIDIA Bluefield 3 DPU SmartNICs, NVIDIA Spectrum Switches und Software, um ein Hochleistungs-Ethernet-Netzwerk zu liefern. Kluge Investoren sollten davon ausgehen, dass Spectrum X einen größeren Anteil an den zukünftigen ARR von NVIDIA im Netzwerkbereich ausmachen wird.

Enterprise und Sovereign AI brauchen eine Cloud-Nutzererfahrung

Künstliche Intelligenz braucht ein Netzwerk mit einer Cloud-Nutzererfahrung. Die meisten KI-Projekte von Unternehmen und Behörden haben mehrere Mieter. Bei diesen Mietern handelt es sich um verschiedene Entwicklungsteams, Anwendungen oder Benutzergruppen für die GPU-Cloud-Infrastruktur. Aufstrebende KI-Cloud-Netzwerke müssen das gleiche Cloud-Nutzererlebnis bieten, das jeder bei den Big 3 genießt. Mehrere Tenants brauchen Virtuelle private Cloud Dienste für Datenschutz und Sicherheit. Sie benötigen Gateway-Dienste für die VPC-Kommunikation zwischen Mandanten und Standorten in Kombination mit Lastausgleichs- und Sicherheitsdiensten.

Hedgehog ist das AI-Netzwerk

Hedgehog ist das KI-Netzwerk für Cloud-Anbieter, die KI-Workloads bedienen. Wir liefern eine leistungsstarke Netzwerksoftware, die mit der NVIDIA Spectrum X-Referenzarchitektur für hohe effektive Bandbreite, null Paketverluste und geringe Latenzzeiten arbeitet. Hedgehog bietet eine Cloud-Benutzererfahrung, die den Betrieb und die Nutzung von KI-Cloud-Netzwerken vereinfacht. Unsere Software ist offen und automatisiert Damit können unsere Kunden Geräte zu geringeren Investitionskosten erwerben und mit geringeren Betriebskosten betreiben. Igel Open-Source-Software gibt den Kunden die Freiheit, ihren Hardware-Anbieter zu wählen und ihr Software-Schicksal zu kontrollieren. Unsere Kunden können sich für NVIDIA-Hardware entscheiden, aber auch AMD, Intel, Marvell, Supermicro, Celestica, Dell oder Edgecore-Geräte für ihr KI-Netzwerk wählen. Durch den vollautomatisierten Netzwerkbetrieb können unsere Kunden ein hyper-skalierbares Netzwerk mit niedrigen Betriebskosten und dynamischer Cloud-Kapazität aufbauen.

 

Marc Austin

Marc Austin

Marc Austin ist der Vorstandsvorsitzende und Gründer von Hedgehog. Marc ist ein Fuchs, der viele Dinge weiß und ein Igel, der eine große Sache weiß. Als Hedgehog weiß er, dass Millionen von Cloud Native-Entwicklungsteams Hedgehog Open Network Fabrics nutzen werden, um ihre Anwendungen auf einer verteilten Cloud-Infrastruktur bereitzustellen. Als Fuchs weiß er viele Dinge aus seiner Erfahrung als Leiter der Automatisierungsstrategie bei Cisco, der Vernetzung des Internets der Dinge bei Jasper, der Bereitstellung digitaler Medien bei Amazon, der Entwicklung mobiler Anwendungen bei der Gründung von Canvas, der Geburt der Smartphones bei AT&T, der Gründung von Mobiquity, der Internetsuche bei Infoseek, dem E-Commerce bei Internet Shopping Network und der Führung von Menschen durch Widrigkeiten in der US-Armee.