EC2 Capacity Blocks for ML und SageMaker Training Plans: AWS sichert kurzfristige GPU-Kapazität | KIBOTI Magazin

AWS hat zwei neue Reservierungsmechanismen vorgestellt, die Unternehmen den zuverlässigen Zugriff auf GPU-Kapazität für zeitkritische Machine-Learning-Workloads ermöglichen sollen.

GPU-Knappheit als zentrale Herausforderung

Die Nachfrage nach Grafikprozessoren übersteigt das verfügbare Angebot. Bestehende On-Demand Capacity Reservations erweisen sich für kurzfristige oder explorative ML-Projekte häufig als ungeeignet, da Verfügbarkeit nicht garantiert und keine signifikanten Kostenvorteile ohne langfristige Bindung bestehen.

EC2 Capacity Blocks for ML

Amazon EC2 Capacity Blocks for ML erlaubt die Reservierung von GPU-Instanzen für einen festen Zeitraum. Reservierungen können bis zu acht Wochen im Voraus erfolgen.

Unterstützte Reservierungsdauern umfassen 1 bis 14 Tage (täglich) sowie 15 bis 182 Tage (wöchentlich). Ein Capacity Block kann bis zu 64 Instanzen umfassen. Über mehrere Blocks und Konten innerhalb einer AWS Organization sind bis zu 256 Instanzen möglich.

Der Service richtet sich an Workloads, die direkt auf EC2 ausgeführt werden, bei denen Nutzer Betriebssystem, Netzwerk und Orchestrierung selbst verwalten. Unterstützt werden ausgewählte Instanzfamilien wie P5, Trn1 und Trn2. SageMaker-verwaltete Instanzen werden nicht unterstützt.

SageMaker Training Plans

Amazon SageMaker Training Plans bieten reservierte Kapazität innerhalb der verwalteten SageMaker-Umgebung. Der Service eignet sich für SageMaker-Trainingsjobs, SageMaker HyperPod-Cluster und Inferenz-Workloads.

Nutzer können GPU-basierte Instanzen und Zeiträume reservieren, ohne die zugrunde liegende Infrastruktur selbst zu betreiben. Unterstützt werden neueste NVIDIA-GPUs sowie AWS Trainium-Beschleuniger. G-Typ-Instanzen außer G6 sind derzeit ausgeschlossen. Reservierungen sind nach dem Kauf nicht stornierbar.

Entscheidungshilfe

Die Wahl zwischen On-Demand, Spot-Instanzen, Capacity Blocks und Training Plans hängt von den Anforderungen an Verfügbarkeit, Kosten und Verwaltungsaufwand ab. Für Workloads mit hoher Dringlichkeit und Planungsbedarf bieten die neuen Reservierungsoptionen eine gezielte Alternative zu reiner On-Demand-Nutzung.

FAQ

Was sind EC2 Capacity Blocks for ML?
Ein Reservierungsmodell, das die garantierte Verfügbarkeit von bis zu 64 GPU-Instanzen (P5, Trn1, Trn2) für einen fest definierten Zeitraum auf Amazon EC2 sicherstellt.

Für wen eignen sich SageMaker Training Plans?
Für Unternehmen, die SageMaker-Trainingsjobs, HyperPod-Cluster oder Inferenz-Workloads in einer vollständig verwalteten Umgebung ohne eigene Infrastrukturverwaltung ausführen wollen.

Können Capacity Blocks mit SageMaker genutzt werden?
Nein. EC2 Capacity Blocks for ML und SageMaker Training Plans sind strikt getrennte Angebote und nicht untereinander austauschbar oder teilbar.

Veröffentlicht am

GPU-Knappheit als zentrale Herausforderung

EC2 Capacity Blocks for ML

SageMaker Training Plans

Entscheidungshilfe

FAQ

Wie geht es weiter?