Programme im Batchbetrieb starten
Job mit Submit-Skript starten
Mit dem Befehl sbatch myscript.sh wird ein Submit-Skript für eine spätere Ausführung an den Workload Manager SLURM übergeben, es folgt eine Bestätigung mit Jobnummer:
uk00123@its-cs1:/home/users/000/uk00123> sbatch myscript.sh |
Job abbrechen
Sie können einen Job mit scancel <JobID> vorzeitig abbrechen.
uk00123@its-cs1:/home/users/000/uk00123> scancel 5403542 |
Wenn Sie einen Namen für Ihre Jobs verwenden, können mit scancel --jobname <JobName> alle laufenden Jobs abgebrochen werden, die diesen Namen haben:
uk00123@its-cs1:/home/users/000/uk00123> scancel --jobname "My Testjob" |
Mit dem folgenden Befehl werden ALLE eigenen Jobs abgebrochen. Setzen Sie diesen nur ein, wenn Sie sich sicher sind!
scancel -u $USER |
Informationen über laufende Jobs
Der Befehl squeue gibt Informationen über wartende und bereits laufende Batch-Jobs aus. Beendete Jobs werden nicht angezeigt.
squeue -u uk00123 gibt Informationen über alle Jobs des angegebenen Users aus. Für die eigenen Jobs kann man statt dem UniAccount einfach $USER schreiben:
uk00123@its-cs1:/home/users/000/uk00123> squeue -u $USER |
squeue -j <job-id_list> listet nur die Jobs auf, deren IDs (durch Kommas getrennt) angegeben werden:
uk00123@its-cs1:/home/users/000/uk00123> squeue -j 5403542,5403547 |
Wenn das Konsolenfenster breit genug ist, kann mit squeue -l die maximale Joblaufzeit der aktuell laufenden Jobs angezeigt werden:
uk00123@its-cs1:/home/users/000/uk00123> squeue -l -u $USER |
Mit squeue -p PARTITIONSNAME werden nur die Jobs gezeigt, die in dieser Partition eingereicht wurden. Vorsicht! Da sich die Partitionen überschneiden ist es beispielsweise möglich, dass in einer Partition kein Job angezeigt wird, obwohl alle Nodes der Partition arbeiten.
Syntax: | squeue [options] |
-u <user_list> | print jobs from list of users |
-i <seconds> | repeatedly gather and report requested |
-j <job_id_list> | print list of job IDs |
-n <name_list> | print jobs or job steps having one of the |
--start | report expected start time and resources |
Detaillierte Informationen über einen Job/Node/Partition
Mit scontrol show job <JobID> können der aktuelle Status und viele weitere Informationen über den Job angezeigt werden:
uk00123@its-cs1:/home/users/000/uk00123> scontrol show job 5403542 |
Als wichtigste Information wird der Status des Jobs (JobState) ausgegeben. Solange der Job in der Queue wartet, bis die Ressourcen verfügbar sind und die Allokation erstellt wird, hat er den Status PENDING. Befindet er sich dann in der Ausführung ist der Status RUNNING.
Nach erfolgreichem Abschluss des Jobs ist der Status COMPLETED, andernfalls FAILED oder TIMEOUT. Letzteres bedeutet, dass SLURM nach der vom User im Submit-Script angegebenen Maximalzeit den Job abgebrochen hat, weil dieser noch nicht fertig war.
Die Standard-Ausgaben und Fehlermeldungen des Programms befinden sich auf Grund der Parameter im Submit-Skript --output und --error in den dort definierten Dateien (z.B. slurm.its-cs194.5403542.out und slurm.its-cs194.5403542.err)
Syntax: | scontrol show ENTITY_ID |
job <job_id> | print job informations |
node <name> | print node informations |
partition <name> | print partition informations |
reservation | print list of reservations |