KI-Modelle sind heute so groß, dass sie nicht auf einem einzigen Computerprozessor laufen können. Die Modelle werden daher für das Training auf Zehntausende Prozessoren aufgeteilt. Dabei ist es aber praktisch unmöglich, die Modelle auf alle Prozessoren gleichmäßig aufzuteilen.
Die Trainingsaufgaben sind deshalb so schwer gleichmäßig aufzuteilen, weil einige Aufgaben auf demselben Prozessor gruppiert werden müssen – so wie die einzelnen Teile einer Buchreihe in einem geordneten Regal gruppiert werden. Je nachdem, wie die Aufgaben gruppiert sind, könnten einige Prozessoren mit dem KI-Trainingsäquivalent der Encyclopedia Britannica beschäftigt sein, während andere eine Fantasy-Trilogie zugewiesen bekommen.
Bei den aktuellen Trainingsmethoden wird dabei jeder Prozessor mit Höchstgeschwindigkeit betrieben. Prozessoren mit einer geringeren Last schließen ihre Berechnungen entsprechend vor anderen Prozessoren ab. Da erst gewartet werden muss, bis der letzte Prozessor fertig ist, bevor fortgefahren werden kann, wirkt sich das nicht positiv auf die Trainingszeiten aus. Auf die Leistungsaufnahme hat das aber einen negativen Effekt, da die höhere Taktung eine überproportional höhere Leistungsaufnahme nach sich zieht.
Eine weniger verschwenderische Methode zum Trainieren großer Sprachmodelle, wie die GPT-Reihe, kommt in der gleichen Zeit mit bis zu 30 % weniger Energie aus, so eine neue Studie der Universität Michigan.
Die Forschenden haben dafür ein Software-Tool namens Perseus entwickelt, das einen kritischen Pfad oder eine Reihe von Teilaufgaben identifiziert, die am längsten für die Ausführung benötigen. Dann verlangsamt Perseus die Prozessoren, die nicht auf dem kritischen Pfad liegen, so dass sie alle ihre Aufgaben etwa zur gleichen Zeit erledigen – und so unnötigen Leistungsaufnahme vermeiden.
Perseus ist ein Open-Source-Tool, das als Teil von Zeus verfügbar ist, einem Tool zur Messung und Optimierung des Energieverbrauchs von KI. (jr)