Noeuds GPU inaccessibles?

Bonjour,

Il semble que les noeuds GPU ne sont pas accessibles.
J'ai ce message :
sbatch: error: Batch job submission failed: Requested node configuration is not available

C'est normal ?

2 « J'aime »

NodeName=gpu-node-01 Arch=x86_64 CoresPerSocket=31
CPUAlloc=0 CPUEfctv=62 CPUTot=62 CPULoad=0.00
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=(null)
NodeAddr=gpu-node-01 NodeHostName=gpu-node-01 Version=23.11.4
OS=Linux 5.4.0-196-generic #216-Ubuntu SMP Thu Aug 29 13:26:53 UTC 2024
RealMemory=505601 AllocMem=0 FreeMem=494471 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=1 TmpDisk=0 Weight=5 Owner=N/A MCS_label=N/A
Partitions=gpu
BootTime=2024-10-11T10:27:20 SlurmdStartTime=2025-03-06T18:36:17
LastBusyTime=2025-03-08T20:53:30 ResumeAfterTime=None
CfgTRES=cpu=62,mem=505601M,billing=62
AllocTRES=
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a

NodeName=gpu-node-02 Arch=x86_64 CoresPerSocket=31
CPUAlloc=0 CPUEfctv=62 CPUTot=62 CPULoad=0.00
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=(null)
NodeAddr=gpu-node-02 NodeHostName=gpu-node-02 Version=23.11.4
OS=Linux 5.4.0-196-generic #216-Ubuntu SMP Thu Aug 29 13:26:53 UTC 2024
RealMemory=505601 AllocMem=0 FreeMem=493915 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=1 TmpDisk=0 Weight=5 Owner=N/A MCS_label=N/A
Partitions=gpu
BootTime=2024-10-11T10:27:27 SlurmdStartTime=2025-03-06T18:36:17
LastBusyTime=2025-03-06T18:36:17 ResumeAfterTime=None
CfgTRES=cpu=62,mem=505601M,billing=62
AllocTRES=
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a

NodeName=gpu-node-03 Arch=x86_64 CoresPerSocket=31
CPUAlloc=0 CPUEfctv=62 CPUTot=62 CPULoad=0.00
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=(null)
NodeAddr=gpu-node-03 NodeHostName=gpu-node-03 Version=23.11.4
OS=Linux 5.4.0-204-generic #224-Ubuntu SMP Thu Dec 5 13:38:28 UTC 2024
RealMemory=505601 AllocMem=0 FreeMem=503782 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=1 TmpDisk=0 Weight=5 Owner=N/A MCS_label=N/A
Partitions=gpu
BootTime=2024-12-20T10:00:47 SlurmdStartTime=2025-03-06T18:36:17
LastBusyTime=2025-03-06T18:36:17 ResumeAfterTime=None
CfgTRES=cpu=62,mem=505601M,billing=62
AllocTRES=
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a

Bonjour,

Je ne reproduis pas l'erreur.
Si j'en crois les jobs exécutés, certains de vos jobs le même jour ce sont bien exécuté su gpu.

Rencontrez-vous toujours le problème ?

Bonjour,
Le problème est toujours là.
J'utilise régulièrement le GPU.
Il y a un soucis car je n'ai pas modifié mes scripts habituels.

J'ai écris ce script test :

dfilloux@clust-slurm-client2:~/work$ sbatch ./test_GPU.sh
sbatch: error: Batch job submission failed: Requested node configuration is not available
dfilloux@clust-slurm-client2:~/work$ cat ./test_GPU.sh
#!/bin/bash
#SBATCH --partition=gpu
#SBATCH --gres=gpu:3g.20gb:1

module load guppy/6.5.7-gpu

guppy_basecaller -i /shared/ifbstor1/home/dfilloux/work/Fast5 -s /shared/ifbstor1/home/dfilloux/work/Test_GPU -c ./dna_r10.4.1_e8.2_400bps_5khz_sup.cfg --device "cuda:$CUDA_VISIBLE_DEVICES"

Si on fait : scontrol show nodes
On voit que le champ Gres est nul pour les noeuds GPU :
Gres=(null)
au lieu d'être
Gres=gpu:1g.5gb:1
ou Gres=gpu:3g.20gb:1
ou Gres=gpu:7g.40gb:1

Même problème depuis vendredi, code erreur ci-dessous :
image

Bonjour,

J'utilise également les GPU régulièrement et ceux-ci ne fonctionnent plus depuis le 07/03.

Merci pour vos alertes ! On regarde ça

C'est résolu !

Merci Julien :slight_smile:

Je confirme !
Ca marche !

Merci !