Knoten und Partitionen

Übersicht

Server in einem Cluster werden als "Nodes", also Knoten bezeichnet. Die Nodes des Linux-Clusters sind in Partitionen eingeteilt. Wenn Sie etwas auf dem Cluster berechnen lassen wollen, müssen Sie angeben, aus welcher Partition die Nodes kommen sollen. Folgende Partitionen stehen zur Auswahl:

 

Partition

Beschreibung

public

Hochschulöffentliche Partition für alle Nutzer. Maximal 10 Tage Rechenzeit pro Auftrag. Doppelprozessorsysteme mit je 2 16-Kern Opteron Prozessoren aus dem Jahr 2012, 32GB-128GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Knoten. Da sich diese Nodes auch gleichzeitig in den Paritionen mpi und mpi1 befinden, haben Nutzer welche die Nodes über mpi und mpi1 Partition nutzen Vorrang.

public2

Hochschulöffentliche Partition für alle Nutzer. Maximal 2 Tage Rechenzeit pro Auftrag. Beinhaltet insgesamt 8 Doppelprozessorsysteme aus dem Jahr 2018 mit je 2 12-Kern Xeon Prozessoren mit 512GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Nodes.

public3

Hochschulöffentliche Partition für alle Nutzer. Maximal 8 Tage Rechenzeit pro Auftrag. Beinhaltet insgesamt 3 Nodes mit je 2 6-Kern Xeon Prozessoren mit 512GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Knoten. Da diese 3 Nodes dem FB16 gehören und sich auch gleichzeitig in der Partition FB16 befinden, haben Nutzer des FB16 in dieser Partition Vorrang.

public4

Hochschulöffentliche Partition für alle Nutzer. Maximal 2 Tage Rechenzeit pro Auftrag. Beinhaltet insgesamt 40 Doppelprozessorsysteme aus dem Jahr 2015 mit je 2 12-Kern Xeon Prozessoren mit 128GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Nodes. Da sich diese Nodes auch gleichzeitig in der Paritionen AG-Garcia befinden, haben Nutzer welche die Nodes über die Partition AG-Garcia nutzen Vorrang.

FB16

Alle Mitarbeiter des Fachbereichs 16 haben Zugriff auf diese Partition. Mitarbeiter anderer Fachgebiete und Studenten mit einer Projektarbeit können ebenfalls für begrenzte Zeit freigeschaltet werden, sollte ihnen die Rechenzeit von 10 Tagen in der "public" bzw 8 Tagen in der "public2" nicht ausreichen. Ansprechpartner ist Daniel Bischof , der Ihnen bei Fragen zur Partition gerne weiterhilft.
Unbegrenzte Rechenzeit pro Auftrag, 12 Doppelprozessorsysteme mit je 2 Intel Xeon 6-Kern Prozessoren und Infiniband-Vernetzung.

mpi,mpi1

Moderierte Partitionen für MPI-Anwendungen mit vielen Nodes. Zugang auf Antrag.
Maximal 400 Stunden Rechenzeit pro Auftrag. Doppelprozessorsysteme mit je 2 16-Kern Opteron Prozessoren und Infinband-Vernetzung.

weitere Partitionen

Es gibt weitere Partitionen, die nicht öffentlich sind. Die Rechenknoten in diesen "moderierten" Partitionen wurden gewöhnlich von Fachgebieten/Fachbereichen finanziert und von diesen im Linux-Cluster betrieben.

Informationen über Partitionen und Knoten abrufen

Das Kommando sinfo listet u.a. Informationen über Laufzeiten und Verfügbarkeiten der Partitionen des Clusters aus. Verkürzte Beispielausgabe von sinfo:

sinfo

uk00123@its-cs1:/home/users/000/uk00123> sinfo
PARTITION  AVAIL TIMELIMIT NODES STATE NODELIST
public*      up 10-00:00:00   1  drain its-cs[240]
public*      up 10-00:00:00   22  alloc its-cs[193-205,...,216-218]
public*      up 10-00:00:00   12  idle its-cs[214-215,...,228-231]
...

  • In der Partition public sind 22 Knoten bereits allokiert, also in Nutzung. 12 Knoten sind im Zustand idle und stehen für Aufgaben zur Verfügung, während 22 voll belegt sind. Die maximale Laufzeit (TIMELIMIT) ist auf 10 Tage beschränkt. Der Stern nach dem Partitionsnamen bedeutet, dass es die default-Partition ist, falls für einen Job keine Partitionsangabe gemacht wird.

 

Es gibt auch eine grafische Variante von sinfo, welche mit sview aufgerufen werden kann. Dafür muss beim Betreten des Cluster das sogenannte "X11 forwarding" aktiviert sein (z.B. ssh -X its-cs1.its.uni-kassel.de). 

Weitere Details zu Partitionen können wie folgt abgerufen werden (verkürzte Ausgabe):

scontrol show partition

uk00123@its-cs1:/home/users/000/uk00123> scontrol show partition public
PartitionName=public
AllocNodes=ALL AllowGroups=ALL Default=YES
DefaultTime=00:05:00 DisableRootJobs=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=2-00:00:00 MinNodes=1 MaxCPUsPerNode=UNLIMITED
Nodes=its-cs10,its-cs[193-205],...,its-cs[228-231]
Priority=1 RootOnly=NO ReqResv=NO Shared=NO PreemptMode=OFF
State=UP TotalCPUs=416 TotalNodes=35 SelectTypeParameters=N/A
DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED

Informationen zu einzelnen Knoten abrufen

scontrol show node

uk00123@its-cs1:/home/users/000/uk00123> scontrol show node its-cs214
NodeName=its-cs214 Arch=x86_64 CoresPerSocket=6
CPUAlloc=0 CPUErr=0 CPUTot=12 CPULoad=0.02 Features=12cores,NoIB
Gres=(null)
NodeAddr=its-no214 NodeHostName=its-cs214
OS=Linux RealMemory=64000 AllocMem=0 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=1 TmpDisk=0 Weight=1
BootTime=2015-09-10T11:42:54 SlurmdStartTime=2015-09-10T11:45:25
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s