CoreWeave, Inc. (CoreWeave) treibt die Erstellung und Bereitstellung der Intelligenz voran, die Innovationen antreibt.
Das Unternehmen ist der AI-Hyperscaler, der die AI-Revolution vorantreibt. Die CoreWeave Cloud-Plattform des Unternehmens besteht aus seiner proprietären Software und Cloud-Services, die die Software und Software-Intelligenz bereitstellen, die zur Verwaltung komplexer AI-Infrastrukturen im großen Maßstab erforderlich sind. Die Plattform des Unternehmens unterstützt die Entwickl...
CoreWeave, Inc. (CoreWeave) treibt die Erstellung und Bereitstellung der Intelligenz voran, die Innovationen antreibt.
Das Unternehmen ist der AI-Hyperscaler, der die AI-Revolution vorantreibt. Die CoreWeave Cloud-Plattform des Unternehmens besteht aus seiner proprietären Software und Cloud-Services, die die Software und Software-Intelligenz bereitstellen, die zur Verwaltung komplexer AI-Infrastrukturen im großen Maßstab erforderlich sind. Die Plattform des Unternehmens unterstützt die Entwicklung und Nutzung wegweisender Modelle und die Bereitstellung der nächsten Generation von AI-Anwendungen, die die Art und Weise, wie wir weltweit leben und arbeiten, verändern – die Plattform des Unternehmens wird von einigen der führenden AI-Labors und AI-Unternehmen der Welt vertraut, darunter Cohere, IBM, Meta, Microsoft, Mistral und NVIDIA.
Das Unternehmen baut seine CoreWeave Cloud-Plattform als Infrastruktur- und Anwendungsplattform für AI. Die Plattform des Unternehmens verwaltet die Komplexität des Engineerings, der Montage, des Betriebs und der Überwachung hochmoderner Infrastrukturen im großen Maßstab, um eine hohe Leistung und Effizienz für AI-Workloads zu liefern. Durch die proprietären Softwarefähigkeiten des Unternehmens ermöglicht das Unternehmen seinen Kunden, wesentlich höhere Gesamtsystemleistungen und eine bessere Betriebszeit im Vergleich zu anderen AI-Angeboten in bestehenden Infrastruktur-Cloud-Umgebungen zu erzielen und Geschwindigkeit im großen Maßstab freizuschalten. Indem das Unternehmen mehr Rechenzyklen für AI-Workloads bereitstellt und damit die Zeit für das Training von Modellen reduziert, können die Fähigkeiten des Unternehmens die Lösungszeit für Kunden im laufenden hyperkompetitiven Wettlauf um den Aufbau der nächsten hochmodernen AI-Modelle erheblich beschleunigen. Zum Beispiel hat das Unternehmen im Juni 2023 den MLPerf-Benchmark-Test (der misst, wie schnell ein System ein Modell von Grund auf trainieren kann) mit seinem NVIDIA H100 Tensor Core GPU-Trainingscluster in elf Minuten abgeschlossen – ein Rekord und 29-mal schneller als der nächstbeste Konkurrent zum Zeitpunkt des Benchmark-Tests.
Diese Effizienzen erstrecken sich auch von Training auf Inferenzanwendungsfälle, da die CoreWeave Cloud-Plattform des Unternehmens die Laufzeit-Effizienz für Inferenz-Workloads erheblich verbessert und insgesamt eine höhere Betriebszeit für AI-Anwendungen ermöglicht. Diese Leistungssteigerungen tragen dazu bei, niedrigere leistungsangepasste Kosten und eine überlegene Benutzererfahrung sicherzustellen. Die Supercomputer, die das Unternehmen zur Unterstützung seiner Plattform baut, sind optimiert, um viele Arten von AI-Workloads zu unterstützen, und werden durch das Angebot des Unternehmens von Cloud-Services ergänzt, um Kunden durch die Orchestrierung, Automatisierung und Überwachung des Unternehmens sinnvolle Zeit- und Kosteneinsparungen zu bieten.
Kunden nutzen die Plattform des Unternehmens durch eine Reihe von Cloud-Services, die Infrastrukturdienste, verwaltete Software-Services und Anwendungssoftware-Services umfassen, die alle durch die Mission Control und Observability-Software des Unternehmens ergänzt werden. Die umfassenden und integrierten Cloud-Services des Unternehmens arbeiten zusammen als Suite, um Rechenleistung, Netzwerk und Speicher bereitzustellen. Diese Dienste ermöglichen die Bereitstellung von Infrastruktur, die Orchestrierung von Workloads und die proaktive Überwachung der Schulungen und Inferenzumgebungen der Kunden des Unternehmens, um die Leistung zu steigern und Unterbrechungen zu minimieren.
Die CoreWeave Cloud-Plattform des Unternehmens wird in einem verteilten Netzwerk von aktiven, zweckgebauten Rechenzentren gehostet, die über latenzarme Verbindungen zu wichtigen Metropolregionen verbunden sind und hochmoderne Rechenzentrums-Netzwerkausrüstung, erweiterten Zugang zu Strom und, wo angebracht, die neuesten Flüssigkeitskühlungstechnologien umfassen.
Bis zum 31. Dezember 2024 betrieb das Unternehmen 32 Rechenzentren mit insgesamt mehr als 250.000 GPUs und wurde von mehr als 360 MW aktiver Leistung unterstützt. Die Gesamtleistung des Unternehmens belief sich zum 31. Dezember 2024 auf etwa 1,3 GW, die das Unternehmen in den kommenden Jahren ausrollen möchte.
Das Unternehmen profitiert von robusten Zusammenarbeiten mit führenden Chip-Herstellern, OEMs und Software-Anbietern, um das Unternehmen mit Infrastrukturkomponenten und anderen Produkten zu versorgen. Das Unternehmen hat eine nachgewiesene Erfolgsbilanz bei der schnellen Erweiterung seiner Leistungskapazität, um das Wachstum des Rechenzentrumsfußabdrucks des Unternehmens und seiner Sammlung von verwalteten Cloud-Services zu unterstützen.
Die Kunden des Unternehmens umfassen einige der führenden AI-Labors und AI-Unternehmen der Welt – die Erbauer und Integratoren von AI – die sich auf die Plattform des Unternehmens für ihre Kernprodukte und vielversprechendsten Innovationen verlassen. Das Unternehmen bietet seinen Kunden erhebliche Vorteile in Bezug auf Gesamtleistung, Time-to-Market und reduzierte Betriebskosten, was dazu führt, dass die Kunden des Unternehmens große, langfristige Erstverpflichtungen eingehen und diese Verpflichtungen im Laufe der Zeit mit dem Unternehmen ausweiten. Das Unternehmen verkauft auch den Zugang zu seiner Plattform auf Abruf durch ein Pay-as-you-go-Modell.
Lösung
Die CoreWeave Cloud-Plattform des Unternehmens ist eine integrierte Lösung, die speziell für die Ausführung von AI-Workloads wie Modelltraining und Inferenz mit maximaler Leistung und Effizienz entwickelt wurde. Sie umfasst Infrastrukturdienste, verwaltete Software-Services und Anwendungssoftware-Services, die alle durch die Mission Control und Observability-Software des Unternehmens ergänzt werden. Die proprietäre Software des Unternehmens bildet die Grundlage für jeden Bestandteil der Plattform und ermöglicht eine hochsichere Bereitstellung von Infrastruktur, eine effektive Orchestrierung von Workloads und eine Echtzeitüberwachung von Schulungs- und Inferenzumgebungen der Kunden des Unternehmens. Sicherheit ist ein grundlegender Bestandteil der Plattform des Unternehmens. Das Unternehmen stellt sicher, dass seine Kunden in einer sicheren Umgebung arbeiten, indem es ein Zero-Trust-Modell für den Datenzugriff implementiert und fortschrittliche Sicherheitstechnologien wie XDR und DLP einsetzt, die an den Endpunkten des Unternehmens bereitgestellt werden. Darüber hinaus verwendet das Unternehmen Single Sign-On und Multi-Faktor-Authentifizierung, um sicherzustellen, dass die CoreWeave Cloud-Plattform des Unternehmens gegen identitätsbasierte Cyberbedrohungen resistent bleibt.
Im Folgenden finden Sie eine Zusammenfassung des Schichtenarchitekturstapels des Unternehmens.
Infrastrukturdienste bieten den Kunden des Unternehmens Zugriff auf fortschrittliche GPU- und CPU-Computing, hochleistungsfähige Netzwerke (unterstützt durch DPUs) und Speicher.
Verwaltete Software-Services umfassen CKS (eine speziell für AI entwickelte verwaltete Kubernetes-Umgebung mit Fokus auf Effizienz, Leistung und Benutzerfreundlichkeit), das flexible Virtual Private Cloud-Angebot des Unternehmens und den Bare Metal-Service des Unternehmens, der Kubernetes direkt auf Hochleistungsservern ausführt, um maximale Leistung und Effizienz zu erzielen.
Anwendungsservices bauen auf der Infrastruktur und den verwalteten Software-Services des Unternehmens auf und integrieren zusätzliche Tools, um das Training und die Inferenz für die Kunden des Unternehmens zu beschleunigen und zu verbessern. Dazu gehören SUNK, mit dem Kunden Slurm-basierte Workloads auf Kubernetes ausführen und Jobs – einschließlich Schulungs- und Inferenz-Workloads – auf einem einzigen Cluster zusammenführen können; CoreWeave Tensorizer, der die Effizienz der Modellüberprüfung erheblich steigert und ein schnelles Laden von Modellen ermöglicht; und die Inferenzoptimierungsdienste des Unternehmens.
Die speziell entwickelte Technologiestapel des Unternehmens wird durch seine Lebenszyklusmanagement- und Überwachungssoftware, Mission Control und Observability, sowie durch die erweiterten Cluster-Validierungs-, proaktiven Gesundheitsüberprüfungs- und Überwachungsfähigkeiten des Unternehmens ergänzt. Die AI-Cloud des Unternehmens läuft in einem verteilten Netzwerk von 32 aktiven, zweckgebauten Rechenzentren, die speziell für die Unterstützung von hochintensiven AI-Workloads entwickelt wurden und Funktionen wie erweiterte Leistung, Flüssigkeitskühlung und Netzwerkkomponenten umfassen, die die Robustheit des gesamten Technologiestapels des Unternehmens verstärken. Die Tools und Lösungen von Drittanbietern des Unternehmens verbessern diese Flexibilität weiter, indem sie eine zusammensetzbare Architektur bereitstellen, die es den Kunden ermöglicht, ihre Lösung durch Integration zusätzlicher Tools von Drittanbietern anzupassen.
Wachstumsstrategien
Die Hauptwachstumsstrategien des Unternehmens sind die Erweiterung der Produktführerschaft und Innovation des Unternehmens; die Erfassung zusätzlicher Workloads von bestehenden Kunden; die Ausweitung auf breitere Unternehmenskunden in neuen Branchen und Vertikalen; die internationale Expansion; die Steigerung der vertikalen Integration des Unternehmens; und die Maximierung der wirtschaftlichen Lebensdauer der Infrastruktur des Unternehmens.
Plattform- und Produktangebote
Die CoreWeave Cloud-Plattform des Unternehmens ist eine integrierte Lösung, die es Unternehmen ermöglicht, AI-Workloads mit hoher Leistung und Effizienz auszuführen. Sie umfasst die Infrastrukturdienste, die verwalteten Software-Services und die Anwendungssoftware-Services des Unternehmens, die alle durch die Mission Control und Observability-Software des Unternehmens gestärkt werden. Die proprietäre Software des Unternehmens bildet die Grundlage für jeden Bestandteil der Plattform, was eine hochsichere Bereitstellung von Infrastruktur, eine effektive Orchestrierung von Workloads und eine Echtzeitüberwachung von Schulungs- und Inferenzumgebungen der Kunden des Unternehmens ermöglicht. Sicherheit ist ein grundlegender Bestandteil der Plattform des Unternehmens. Das Unternehmen stellt sicher, dass seine Kunden in einer sicheren Umgebung arbeiten, indem es ein Zero-Trust-Modell für den Datenzugriff implementiert und fortschrittliche Sicherheitstechnologien wie XDR und DLP einsetzt, die an den Endpunkten des Unternehmens bereitgestellt werden. Darüber hinaus verwendet das Unternehmen Single Sign-On und Multi-Faktor-Authentifizierung, um sicherzustellen, dass die CoreWeave Cloud-Plattform des Unternehmens gegen identitätsbasierte Cyberbedrohungen resistent bleibt.
Infrastrukturdienste: Bereitstellung von modernster Rechen-, Netzwerk- und Speicherinfrastruktur
Die Plattform des Unternehmens wird von seinen grundlegenden Infrastrukturdiensten angetrieben, die die proprietäre Software des Unternehmens und eine Kombination von Hochleistungs-GPUs, CPUs, DPUs, Speicher- und Netzwerkausrüstung nutzen, die alle kalibriert sind, um die Leistung im großen Maßstab zu liefern, die für die Ausführung von AI-Workloads erforderlich ist.
Berechnen. Die Rechenleistung des Unternehmens wird durch Kombinationen von GPU- und CPU-Nodes geliefert, die über hochmoderne, leistungsstarke Netzwerktechnologien wie NVIDIA InfiniBand verbunden sind und durch DPUs optimiert werden. Die GPU-Nodes sind die Hauptmotoren für die AI-Berechnung und werden von der neuesten Generation von CPUs, Speicher, PCI-Express-Datenverbindungen, NVMe-SSDs und DPUs unterstützt. Diese Komponenten helfen, die maximale Leistung aus den GPUs herauszuholen und auch nicht-kernnahe Aufgaben auszulagern. Das Unternehmen überwacht kontinuierlich die Gesundheit und Leistung der GPU- und CPU-Nodes, um eine verbesserte Widerstandsfähigkeit und schnelle Wiederherstellung sicherzustellen.
GPU-Berechnung. Das Unternehmen bietet seinen Kunden Zugriff auf eine Vielzahl von Hochleistungs-GPUs, die speziell für AI entwickelt wurden. Dazu gehören die NVIDIA H200, mit der das Unternehmen zu den ersten auf dem Markt war, die sie in Produktionsgröße anboten, und die NVIDIA H100. Die H100-Architektur des Unternehmens ermöglichte es dem Unternehmen, den MLPerf-Rekord 2023 zu brechen und Schulungsgeschwindigkeiten zu liefern, die 29-mal schneller sind als die der Wettbewerber bei größerem Maßstab.
CPU-Berechnung. Das Unternehmen bietet vielseitige CPU-Instanzen zur Unterstützung von AI-Workloads. Die Infrastruktur des Unternehmens verwendet einige der leistungsstärksten und neuesten CPUs der Branche anstelle von Technologien der vorherigen Generation, die die Leistung und Nützlichkeit der GPUs beeinträchtigen können. Die CPUs des Unternehmens ergänzen die GPUs des Unternehmens durch die Ausführung von Aufgaben wie Daten-Vorbearbeitung, Steuerungsfunktionen und Workload-Orchestrierung, die es den GPUs ermöglichen, sich auf rechenintensive Aufgaben zu konzentrieren.
DPUs. DPUs optimieren die Berechnung für AI-Workloads, indem sie Netzwerk-, Sicherheits- und Speicherverwaltungsaufgaben von GPUs und CPUs auslagern. Sie sind ein entscheidender Komponent für die Steigerung der Gesamteffizienz und Leistung.
Nimbus. Nimbus ist die Steuerungs- und Datenplan-Software des Unternehmens, die auf den DPUs des Unternehmens in Bare Metal-Instanzen läuft und die typische Rolle eines Hypervisors bei der Sicherung, Flexibilität und Leistungsfähigkeit übernimmt. Die von Nimbus aktivierten DPUs eliminieren die Notwendigkeit einer Virtualisierungsschicht und geben den Kunden die Flexibilität, direkt auf den Servern des Unternehmens ohne Hypervisor auszuführen, was eine höhere Rechenleistung ermöglicht. Nimbus bietet auch Sicherheit durch die Isolierung von Kundenmodellen und Datenverschlüsselung und ermöglicht es ihnen, Virtual Private Cloud-Umgebungen einzurichten.
Netzwerk. Die Netzwerkarchitektur des Unternehmens ist hochspezialisiert und einzigartig gestaltet, um den komplexen Anforderungen von AI-Anwendungsfällen gerecht zu werden. Sie umfasst das leistungsstarke InfiniBand-basierte Cluster-Netzwerk des Unternehmens, sein Rechenzentrumsnetzwerk, das die GPU- und CPU-Nodes des Unternehmens über DPUs mit dem Steuerungspfad des Unternehmens verbindet, um bestimmte Verarbeitungsaufgaben effizient auszulagern, das VPC-Netzwerkrahmenwerk des Unternehmens sowie das Direct Connect-Angebot des Unternehmens, das Unternehmensnetzwerke auf Unternehmensebene bereitstellt und Multi-Cloud-Bereitstellungen unterstützt. Die ultraschnelle Verbindung und die überlegene Durchsatzleistung, die durch die Netzwerkarchitektur des Unternehmens ermöglicht wird, gewährleisten schnellere Schulungs- und Inferenzzeiten für die Kunden des Unternehmens.
Cluster-Netzwerk ist das Ergebnis der Zusammenarbeit des Unternehmens mit NVIDIA, um eine Netzwerkarchitektur zu entwerfen, die speziell für AI-Cluster entwickelt wurde. Das von dem Unternehmen implementierte NVIDIA InfiniBand-Netzwerk ist eines der größten seiner Art mit bis zu 3.200 Gbps nicht blockierendem GPU-Interconnect und bietet branchenführende effektive Netzwerkdurchsatzleistung, um die Zeit für das Training und die Bereitstellung von Modellen zu beschleunigen. Die Blackwell-Bereitstellungen des Unternehmens werden durch externe NVLink-Switches unterstützt, ein Protokoll mit geringer Latenz, Skalierbarkeit und Energieeffizienz, das es GPUs ermöglicht, effizienter mit anderen GPUs und CPUs innerhalb derselben und verschiedener Systeme zu kommunizieren. Diese Technologien ermöglichen es dem Unternehmen, seinen Kunden den Zugriff auf Zehntausende von GPUs in einem einzigen Cluster zu bieten und die Möglichkeit