NVIDIA beschleunigt Google DeepMinds DiffusionGemma für lokale KI

Google DeepMind hat DiffusionGemma veröffentlicht, ein experimentelles Open-Modell für schnelle Textgenerierung. NVIDIA hat das Modell für eine beschleunigte Ausführung auf verschiedenen GPU-Plattformen optimiert.

DiffusionGemma: Textdiffusion statt autoregressiver Generierung

Im Gegensatz zu herkömmlichen Large Language Models, die Text sequentiell Wort für Wort erzeugen, nutzt DiffusionGemma eine Textdiffusionsmethode. Das Modell generiert ganze Textblöcke parallel, indem es bis zu 256 Token pro Schritt entrauscht. Dadurch verlagert sich der Engpass von der Speicherbandbreite hin zur Rechenleistung – ein Vorteil bei lokalen Einzelnutzer-Workloads mit geringer Latenz.

DiffusionGemma basiert auf der Gemma 4 26B Mixture-of-Experts-Architektur. Von den 26 Milliarden Parametern werden während der Inferenz nur etwa 3,8 Milliarden aktiviert.

NVIDIA-Optimierungen und gemessene Leistung

NVIDIA hat DiffusionGemma für GeForce RTX GPUs, die RTX PRO Plattform und DGX Spark Systeme optimiert. Die Anpassungen nutzen Tensor Cores und den CUDA-Stack sowie native NVFP4-Kernel für Hopper- und Blackwell-Architekturen.

Auf einer einzelnen NVIDIA H100 Tensor Core GPU erreicht das Modell über 1.000 Token pro Sekunde bei Batch-Größe 1. Auf einer NVIDIA GeForce RTX 5090 werden über 700 Token pro Sekunde gemessen. Das NVIDIA DGX Spark System erreicht bis zu 150 Token pro Sekunde. Die schnellste lokale Inferenz wird auf dem NVIDIA DGX Station erzielt.

Verfügbarkeit und Software-Support

DiffusionGemma ist als Open-Weights-Modell unter der Apache 2.0-Lizenz verfügbar. Es kann vollständig lokal auf RTX- und DGX Spark-Systemen ausgeführt werden. Day-Zero-Support existiert für Hugging Face Transformers, vLLM und Unsloth. Unterstützung für llama.cpp wird in Kürze erwartet.

Entwickler können das Modell über Hugging Face oder die von NVIDIA gehosteten APIs unter build.nvidia.com testen. Feinabstimmung ist über Unsloth und das NVIDIA NeMo Framework möglich.

Quelle: NVIDIA Blog

FAQ

Was unterscheidet DiffusionGemma von klassischen LLMs?
DiffusionGemma generiert Text parallel über eine Diffusionsmethode statt sequentiell autoregressiv. Dadurch verschiebt sich der limitierende Faktor von Speicherbandbreite zu Rechenleistung.

Auf welcher Architektur basiert DiffusionGemma?
Das Modell basiert auf der Gemma 4 26B Mixture-of-Experts-Architektur von Google DeepMind. Während der Inferenz werden nur etwa 3,8 Milliarden Parameter aktiviert.

Welche Hardware profitiert am stärksten von der NVIDIA-Optimierung?
Besonders NVIDIA H100, GeForce RTX 5090, DGX Spark und DGX Station zeigen hohe Token-pro-Sekunde-Werte bei lokaler Ausführung mit Batch-Größe 1.

Veröffentlicht am

NVIDIA beschleunigt Google DeepMinds DiffusionGemma für lokale KI

DiffusionGemma: Textdiffusion statt autoregressiver Generierung

NVIDIA-Optimierungen und gemessene Leistung

Verfügbarkeit und Software-Support

FAQ

Wie geht es weiter?