Forschende der University of California haben festgestellt, dass die gängigen Metriken zur Bewertung des kompositorischen Schließens von multimodalen KI-Modellen deren Fähigkeiten systematisch unterschätzen. In ihrer Veröffentlichung „Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models“ berichten sie über ihre Ergebnisse und stellen einen von ihnen entwickelten Algorithmus namens TTM (Test-Time Matching) vor. Test-Time Matching ist ein sich selbst verbessernder, iterativer Algorithmus, der die Modellleistung ohne externe Überwachung steigert. Mit TTM übersteigt die MMVP-VLM-Performance von SigLIP-B16 die von GPT-4.1 und stellt somit einen neuen „Stand der Technik“ dar. Experimente mit 16 Datensatzvarianten haben dabei gezeigt, dass TTM die Leistung in verschiedenen Umgebungen konsistent verbessert – auch in solchen ohne metrikbedingte Effekte oder vordefinierte Gruppenstrukturen. (jr)
Ähnliche Artikel
Technologie-Radar
Projekt VorSAFe-D: Förderung für mehr Fahrzeugsicherheit
Ziel des Förderprojektes ist es, Verletzungen von Fahrzeuginsassen bei Unfällen mithilfe von KI proaktiv und vorausschauend abzumildern.
News
ZF: KI-basierte Temperaturprognose steigert Effizienz elektrischer Antriebe
Mit TempAI nutzt ZF Künstliche Intelligenz, um die Temperatur im Inneren von E-Motoren präzise vorherzusagen – ohne zusätzliche Sensorik. Das Ergebnis: bis zu 6 % mehr Spitzenleistung, kürzere Entwicklungszeiten und eine optimierte Nutzung seltener Erden.
Branchen-News
Nvidia: Integration der DGX Cloud in die Hugging Face Plattform
Die Integration beschleunigt das Training, Tuning und Anpassen von Large Language Modellen (LLM).
