LoadLeveler auf dem UNIX-Cluster: Interna
Einige interne Informationen über die spezielle Konfiguration des LoadLevelers im HRZ:
-
Der LoadLeveler hat einen sogenannten central_manager (momentan der Rechner "blade13") der das Verteilen der Jobs überwacht. Sollte dieser Rechner ausfallen, springt nach 15 Minuten der sogenannte backup_central_manager ein (momentan der Rechner "blade12").
-
Wenn der LoadLeveler gestartet wird (und auch wenn der backup_central_manager die Arbeit aufnimmt), muß der Status jedes einzelnen Rechners abgefragt werden. Zur Zeit werden zehn Rechner in 30 Sekunden verarbeitet. Es dauert also länger als fünf Minuten bis die über 100 zur Verfügung stehenden Rechner aktualisiert worden sind.
-
Die Jobs werden nach Priorität behandelt, d. h. Jobs mit höherer Priorität werden vor Jobs mit niedrigerer Priorität ausgeführt. Die Priorität wird nach folgender Formel berechnet:
SYSPRIO: 30000 - (UserRunningJobs * 100) + ClassSysprio
Je mehr Jobs ein Benutzer zur gleichen Zeit laufen hat, desto geringer wird die Priorität der noch nicht laufenden Jobs. Haben zwei unterschiedliche Benutzer die gleiche Anzahl Jobs laufen, dann wird der Job mit der höheren Klassenpriorität bevorzugt.
-
Die Priorität der Jobs wird alle zehn Minuten neu berechnet.
-
Pro Benutzer sind maximal 160 simultan ablaufende Jobs erlaubt.
-
Es gibt einen sogenannten schedd_host (momentan der Rechner "blade12"). Egal auf welchem Rechner ein Job abgeschickt wird, die Job-Informationen werden an den schedd_host übermittelt und dort gespeichert.
geändert am 05. März 2007 E-Mail: loadlloadl@rz.uni-frankfurt.de
|
|
Zur Navigationshilfe