Durch die Verwendung synthetischer Bilder zum Trainieren von Modellen des maschinellen Lernens übertraf ein Team von Wissenschaftlern des MIT CSAIL-kürzlich die Ergebnisse, die mit ‚echten‘ Bildern bei herkömmlichen Trainingsmethoden erzielt wurden.
Kernstück des Ansatzes ist ein System namens StableRep, das nicht einfach nur beliebige synthetische Bilder verwendet, sondern sie mit Hilfe von etablierten Text-Bild-Modellen wie Stable Diffusion erzeugt.
Das Besondere an von StableRep ist die als multi-positives kontrastives Lernen bezeichnete Strategie . Das Modell wir dabei nicht einfach mit Daten gefüttert, sondern es wird im beigebracht, mehr über hochrangige Konzepte durch Kontext und Varianz zu lernen. „Wenn mehrere Bilder, die alle aus demselben Text generiert wurden, alle als Darstellungen desselben zugrundeliegenden Objekts behandelt werden, taucht das Modell tiefer in die Konzepte hinter den Bildern ein, z. B. in das Objekt und nicht nur in ihre Pixel“, erklärt einer der Forscher.
Dieser Ansatz betrachtet mehrere Bilder, die aus identischen Textaufforderungen hervorgegangen sind, als positive Paare, die während des Trainings zusätzliche Informationen liefern und nicht nur mehr Vielfalt hinzufügen, sondern dem Bildverarbeitungssystem mitteilen, welche Bilder gleich und welche verschieden sind. Bemerkenswerterweise übertraf StableRep die Fähigkeiten von Spitzenmodellen, die auf realen Bildern trainiert wurden, wie SimCLR und CLIP. (jr)