Forschende der University of California haben festgestellt, dass die gängigen Metriken zur Bewertung des kompositorischen Schließens von multimodalen KI-Modellen deren Fähigkeiten systematisch unterschätzen. In ihrer Veröffentlichung „Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models“ berichten sie über ihre Ergebnisse und stellen einen von ihnen entwickelten Algorithmus namens TTM (Test-Time Matching) vor. Test-Time Matching ist ein sich selbst verbessernder, iterativer Algorithmus, der die Modellleistung ohne externe Überwachung steigert. Mit TTM übersteigt die MMVP-VLM-Performance von SigLIP-B16 die von GPT-4.1 und stellt somit einen neuen „Stand der Technik“ dar. Experimente mit 16 Datensatzvarianten haben dabei gezeigt, dass TTM die Leistung in verschiedenen Umgebungen konsistent verbessert – auch in solchen ohne metrikbedingte Effekte oder vordefinierte Gruppenstrukturen. (jr)
Ähnliche Artikel
News
ETAS: Embedded Code-Generierung aus trainierten KI-Modellen
Der Embedded AI Coder generiert C-Code direkt aus trainierten KI-Modellen.
Produkt-Highlight
Echtzeit-Analyse des Fahrerverhaltens mit KI
Das System analysiert Bewegungen und Interaktionen von Fahrzeuginsassen in Echtzeit und ermöglicht so neue Ansätze für Fahrzeuginnenraumforschung, Ergonomie und Fahrerassistenz. Die Technologie kann feststellen, wo sich Arme und Hände befinden, in welche Richtung sich der Kopf des Fahrers oder der Fahrerin wendet und welche Objekte im Innenraum des Fahrzeugs genutzt werden. Dies eröffnet neue Perspektiven für die Forschung, da sich lange Autofahrten automatisiert auswerten lassen.
News
NVIDIA: Alpamayo-Plattform mit neuen Modellen, Daten und Tools
Erweiterung der Alpamayo-Plattform um das neue Reasoning-Modell Alpamayo 1.5 sowie zusätzliche Daten- und Simulationstools zur Entwicklung und Evaluierung von AV-Systemen.
