Noeud très lent

Mag · Juillet 21, 2021, 10:00

Bonjour,
j'ai des jobs qui ont été lancés sur le cpu-node-53 et ils mettent > 10x plus de temps que sur les autres noeuds. Comment est-ce que je peux éviter ce noeud le temps qu'il guérisse?
Merci de votre aide!

Magali

nc-support · Juillet 21, 2021, 10:35

Bonjour Magali

Avec sbatch et srun vous pouvez utiliser l'option -x, --exclude=<node name list>

**-x**, **--exclude**=<*node name list*>
Explicitly exclude certain nodes from the resources granted to the job.

ref:
https://slurm.schedmd.com/srun.html
https://slurm.schedmd.com/srun.html

Merci Nicole

Mag · Juillet 21, 2021, 11:07

Merci beaucoup Nicole.
J'utilise snakemake et slurm-drmaa et ça a l'air de fonctionner avec une commande du genre:

snakemake --cluster-config cluster.yml --drmaa " --mem={cluster.mem} -J {cluster.name} -c {cluster.cpus} -x cpu-node-53" --use-conda --jobs=30 ...

Pas de jobs sur le 53 pour l'instant...
Merci!

Magali