Die auf der CES 2025 vorstellte Plattform Cosmos von Nvidia umfasst generative World-Foundation-Modelle, Tokenizer, Guardrails sowie eine beschleunigte Videoverarbeitungspipeline und soll die Entwicklung von autonomen Fahrzeugen und Robotern vorantreiben.
Cosmos World Foundation Models (WFMs) bieten Entwicklern eine einfache Möglichkeit, riesige Mengen fotorealistischer, physikbasierter synthetischer Daten zu erzeugen, um ihre bestehenden physikalische KI-Modelle zu trainieren und zu bewerten. Entwickler können auch benutzerdefinierte Modelle erstellen, indem sie die Cosmos-WFMs mit Datensätzen wie Videoaufnahmen von AV-Fahrten oder Robotern, die durch ein Lagerhaus navigieren, an die Bedürfnisse ihrer Zielanwendung anpassen.
Die WFMs wurden speziell für die Forschung und Entwicklung von physischer KI entwickelt und können physikbasierte Videos aus einer Kombination von Eingaben wie Text, Bild und Video sowie Sensor- oder Bewegungsdaten von Robotern erzeugen. Die Modelle sind für physikalisch basierte Interaktionen, Objektpermanenz und die qualitativ hochwertige Generierung von simulierten industriellen Umgebungen – wie Lagerhallen oder Fabriken – und von Fahrumgebungen, einschließlich verschiedener Straßenbedingungen, ausgelegt. Entsprechend sind diese neuronalen Netze (Modelle), in der Lage, den zukünftigen Zustand einer virtuellen Umgebung vorherzusagen und zu generieren.
Cosmos-Modelle werden unter einer offenen Modelllizenz verfügbar sein, um die Arbeit der Robotik- und AV-Community zu beschleunigen. Entwickler können eine Vorschau der ersten Modelle im Nvidia API-Katalog ansehen oder die Modellfamilie und das Feinabstimmungs-Framework aus dem Nvidia NGCTM-Katalog oder Hugging Face herunterladen.
Führende Robotik- und Automobilunternehmen wie 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi und XPENG sowie Uber gehören zu den ersten Anwendern. (jr)