Bonjour,
j'ai des jobs qui ont été lancés sur le cpu-node-53 et ils mettent > 10x plus de temps que sur les autres noeuds. Comment est-ce que je peux éviter ce noeud le temps qu'il guérisse?
Merci de votre aide!
Magali
Bonjour,
j'ai des jobs qui ont été lancés sur le cpu-node-53 et ils mettent > 10x plus de temps que sur les autres noeuds. Comment est-ce que je peux éviter ce noeud le temps qu'il guérisse?
Merci de votre aide!
Magali
Bonjour Magali
Avec sbatch et srun vous pouvez utiliser l'option -x, --exclude=<node name list>
**-x**, **--exclude**=<*node name list*>
Explicitly exclude certain nodes from the resources granted to the job.
ref:
https://slurm.schedmd.com/srun.html
https://slurm.schedmd.com/srun.html
Merci Nicole
Merci beaucoup Nicole.
J'utilise snakemake et slurm-drmaa et ça a l'air de fonctionner avec une commande du genre:
snakemake --cluster-config cluster.yml --drmaa " --mem={cluster.mem} -J {cluster.name} -c {cluster.cpus} -x cpu-node-53" --use-conda --jobs=30 ...
Pas de jobs sur le 53 pour l'instant...
Merci!
Magali