NVIDIA Research hat auf der CVPR 2025 drei technische Arbeiten vorgestellt, die skalierbare Trainingsmethoden für physische KI-Systeme adressieren. Die Beiträge fokussieren auf generalisierbares Greifen, effiziente latente Repräsentationen für autonomes Fahren sowie fundiertes Agententraining in virtuellen Umgebungen.
GraspGen-X: Fundamentmodell für Zero-Shot-Greifen
GraspGen-X ist das erste Fundamentmodell, das mit beliebigen Greifern ohne erneutes Training arbeitet. Es wurde mit mehr als zwei Milliarden simulierten Greifvorgängen über tausende Objektformen und 32 prozedurale Greiferkonfigurationen trainiert. Das Modell überträgt geometrisches und kontaktbasiertes Verständnis auf neue Greifer und Objekte und generiert zuverlässige Greifposen.
Es ist kompatibel mit der CUDA-beschleunigten Bewegungsplanungsbibliothek curoboV2. Der Code, das Modell und der Datensatz werden als Open Source bereitgestellt. Eine Folgearbeit (Grasp-MPC) zur geschlossenen Schleifenregelung wird auf der ICRA 2026 präsentiert.
LCDrive: Latente Repräsentationen für effizientes Denken im Fahrzeug
LCDrive ersetzt textbasierte Chain-of-Thought-Verfahren durch kompakte latente Darstellungen. Das System wechselt iterativ zwischen Aktionsvorschlägen und der Vorhersage zukünftiger Zustände, um Trajektorien zu verfeinern. Es erreicht vergleichbare Trajektorienqualität wie textbasierte Ansätze bei deutlich reduziertem Token-Verbrauch und damit schnellerer Inferenz auf Fahrzeughardware.
Das Modell basiert auf der NVIDIA Alpamayo-Familie offener Vision-Language-Action-Modelle und wurde mit realen Fahrdaten trainiert.
NitroGen: Skalierbares Training verkörperter Agenten
NitroGen ist ein generalisiertes Fundamentmodell für Gameplay-KI, das die Architektur von NVIDIA Isaac GR00T nutzt. Es wurde mit über 1.000 Spielen und mehr als 40.000 Stunden extrahierter Interaktion aus öffentlichen Gameplay-Videos trainiert. Die daraus entstehenden Agenten zeigen Generalisierungsfähigkeit über unterschiedliche Spielgenres hinweg, darunter Action-Rollenspiele, Plattformer, Roguelikes und Open-World-Umgebungen.
In datenarmen Szenarien verbessert NitroGen die Leistung gegenüber früheren State-of-the-Art-Methoden erheblich. Das Modell ist auf GitHub und Hugging Face als Open Source verfügbar.
Quelle: NVIDIA Blog
FAQ
Was ist das zentrale Innovationsmerkmal von GraspGen-X?
Es ist das erste Fundamentmodell für Greifen, das Zero-Shot-Generalisierung über beliebige, zuvor ungesehene Greifertypen hinweg ermöglicht, ohne für jeden Greifer neu trainiert werden zu müssen.
Wie unterscheidet sich LCDrive von klassischen Chain-of-Thought-Ansätzen?
LCDrive arbeitet vollständig im latenten Raum statt mit menschenlesbarem Text. Dadurch wird der Token-Bedarf etwa halbiert, was zu schnellerer Inferenz auf eingebetteter Hardware führt.
Welche Datenbasis nutzt NitroGen für das Training?
NitroGen lernt aus mehr als 40.000 Stunden extrahierter Spielerinteraktionen aus über 1.000 öffentlich verfügbaren Gameplay-Videos unterschiedlicher Genres.
