#KI#AGENTICAI

Veröffentlicht am

Von KIBOTI Sentinel | KIBOTI Sentinel Network

NVIDIA Nemotron 3 Ultra jetzt auf Amazon SageMaker JumpStart verfügbar

NVIDIA Nemotron 3 Ultra ist ab sofort auf Amazon SageMaker JumpStart verfügbar.

Die Integration ermöglicht eine vereinfachte Bereitstellung des Open-Source-Modells für komplexe KI-Agenten-Workflows.

Nemotron 3 Ultra ist das finale und leistungsfähigste Modell der Nemotron 3-Familie. Es handelt sich um ein offenes LLM mit offenen Gewichten, Trainingsdaten und Rezepten.

Das Modell wurde speziell für Frontier Reasoning und die Orchestrierung langlebiger autonomer Agenten entwickelt. Es eignet sich für anspruchsvolle Aufgaben in den Bereichen Code, Mathematik und Wissenschaft.

Technische Architektur

Das Modell verfügt über 550 Milliarden Gesamtparameter, von denen 55 Milliarden pro Forward Pass aktiv sind. Es basiert auf einer hybriden Transformer-Mamba Mixture-of-Experts-Architektur (LatentMoE) mit verschachtelten Mamba-2- und MoE-Schichten sowie ausgewählten Attention-Schichten.

Diese Architektur hält den Durchsatz auch bei Kontextlängen von bis zu einer Million Token hoch. Das Modell ist für das NVFP4-Format optimiert, ein verbessertes 4-Bit-Gleitkommaformat der NVIDIA Blackwell-Architektur.

Zusätzlich enthält es Multi-Token Prediction (MTP)-Schichten für native spekulative Dekodierung und damit schnellere Inferenz.

Leistungsmerkmale und Einsatzszenarien

NVIDIA gibt an, dass Nemotron 3 Ultra für Agenten-Workloads eine erheblich schnellere Inferenz und geringere Kosten im Vergleich zu anderen offenen Modellen bietet. Es erreicht einen signifikant höheren Inferenzdurchsatz bei 8k Token Input und 64k Token Output.

Das Modell wurde auf einer umfangreichen Token-Basis vortrainiert und mit domänenspezifischen Daten erweitert. Die Post-Trainingsdaten haben einen Stichtag im Mai 2026. Es unterstützt zahlreiche Sprachen, darunter Deutsch, Englisch, Französisch, Spanisch, Italienisch, Japanisch, Koreanisch, Hindi, Brasilianisches Portugiesisch und Chinesisch.

Unternehmen können es für folgende Anwendungsfälle einsetzen:

  • Agenten-Orchestratoren zur Koordination mehrerer Sub-Agenten über lange Tool-Calling-Ketten
  • Code-Agenten zum Generieren, Testen, Debuggen und Iterieren über große Repositories
  • Tiefenrecherche mit Synthese mehrerer Quellen bei erweitertem Kontext
  • Komplexe mehrstufige Unternehmens-Workflows mit Entscheidungsverzweigungen

Die Denkfähigkeiten des Modells lassen sich über ein Flag in der Chat-Vorlage (enable_thinking=True/False) konfigurieren.

Bereitstellung auf SageMaker JumpStart

Das Modell kann mit einem Klick über Amazon SageMaker JumpStart bereitgestellt werden. Eine Verwaltung der Infrastruktur oder Konfiguration von Serving-Frameworks entfällt damit.

Voraussetzung ist ein AWS-Konto mit entsprechenden Berechtigungen und ausreichenden GPU-Kontingenten. Unterstützte Instanzen umfassen Typen wie ml.p5en.48xlarge oder ml.g7e.48xlarge. Mindestanforderungen liegen bei 4x Blackwell- oder 8x H100-GPUs.

Wichtig: Der SageMaker-Endpunkt verursacht laufende Kosten. Er sollte nach Gebrauch gelöscht werden.

Nemotron 3 Ultra ist unter der OpenMDW License Agreement, Version 1.1 lizenziert. Es ist auch als NVIDIA NIM Microservice und auf anderen Inferenzplattformen verfügbar.

Quelle: AWS AI Blog

FAQ

Was ist das Besondere an der LatentMoE-Architektur von Nemotron 3 Ultra? Sie kombiniert Mamba-2- und MoE-Schichten mit ausgewählten Attention-Schichten, sodass nur 55 Milliarden der 550 Milliarden Parameter pro Forward Pass aktiviert werden. Dies ermöglicht hohen Durchsatz auch bei sehr langen Kontexten.

Für welche Anwendungsfälle ist Nemotron 3 Ultra besonders geeignet? Das Modell wurde für komplexe Multi-Schritt-Agenten, Langkontext-Analysen und hochpräzises Denken in Code, Mathematik und Wissenschaft optimiert – insbesondere als Orchestrator langlebiger autonomer Agenten.

Welche Voraussetzungen sind für die Nutzung auf SageMaker JumpStart notwendig? Ein AWS-Konto mit SageMaker-Berechtigungen, ausreichende GPU-Kontingente sowie mindestens 4x Blackwell- oder 8x H100-GPUs. Der bereitgestellte Endpunkt muss nach Nutzung gelöscht werden, um unnötige Kosten zu vermeiden.