Problème d'exécution de jobs et workflow sur mon compte

Bonjour,

J'ai un souci sur mon compte: lorsque j'execute un job avec la commande sbatch -A form_2021_29 Workflow_ifb.sh le workflow n'est pas lancé et il n'y a pas de fichiers logs qui sont générés.

[hdjermouni@clust-slurm-client RASflow_EDC]$ squeue -u hdjermouni JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 22964037 fast RASflow hdjermou PD 0:00 1 (launch failed requeued held) 22964019 fast RASflow hdjermou PD 0:00 1 (launch failed requeued held) 22964054 fast jupyter hdjermou R 1:31 1 cpu-node-39

Merci

Ca refonctionne pour l'instant. Mais on ne sait pas trop d'où venait ce "launch failed requeued held"...
Bonne journée!

Magali et Hasna

Bonjour,

En effet j'ai bien constaté ce type d'erreur.
Ce n'est pas clair pour moi non plus d'où provient ce type d'erreur... On surveille.

Bonne journée

Bonjour,

J'ai lancé un script en boucle :

(base) [edarbo@cpu-node-59 scripts]$ for i in WT 3GKO20; do for j in 0 1 2; do sbatch --export=cond=$i,it=$j generate_pseudorep.sh; done; done
Submitted batch job 31994133
Submitted batch job 31994134
Submitted batch job 31994135
Submitted batch job 31994136
Submitted batch job 31994137
Submitted batch job 31994138

4 d'entre eux ont tourné, et 2 affichent NODELIST (REASON) (launch failed requeued held)

(base) [edarbo@cpu-node-59 scripts]$ squeue -u edarbo JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
31994134 fast generate edarbo PD 0:00 1 (launch failed requeued held)
31994133 fast generate edarbo PD 0:00 1 (launch failed requeued held)
31994135 fast generate edarbo R 1:45 1 cpu-node-18
31994136 fast generate edarbo R 1:45 1 cpu-node-18
31994137 fast generate edarbo R 1:45 1 cpu-node-25
31994138 fast generate edarbo R 1:45 1 cpu-node-25

Je les ai relancés plusieurs fois, en faisant un scancel des jobs "stuck" avant.
Par exemple:

(base) [edarbo@cpu-node-59 scripts]$ for i in WT; do for j in 0 1; do sbatch --export=cond=$i,it=$j generate_pseudorep.sh; done; done
Submitted batch job 31994148
Submitted batch job 31994149
31994149 fast generate edarbo PD 0:00 1 (launch failed requeued held)
31994148 fast generate edarbo PD 0:00 1 (launch failed requeued held)
(base) [edarbo@cpu-node-59 scripts]$ scancel 31994149
(base) [edarbo@cpu-node-59 scripts]$ scancel 31994148

Je ne sais pas trop quoi faire, j'ai essayé scontrol release 31994143, la raison a changé quelques secondes (BeginTime) puis est revenue rapidement (launch failed requeued held).

Je n'ai pas scancel mon dernier essai (id: 31994151 et 31994152).

Merci d'avance pour votre aide,

Elodie

Bonjour Élodie,

Un nœud était en erreur (cpu-node-16) et les jobs en erreur (launch failed) tentaient de s’exécuter sur ce nœud (d'où le fait que seul ces jobs étaient en erreur).
Nous avons sortis ce nœud le temps de résoudre le problème.

Normalement, cela ne devrait pas se reproduire.
J'ai relance les jobs en question (scontrol release <jobid>).

Merci pour le signalement.

PS: privilégiez la création d'un nouveau fil de discussion (créé un nouveau sujet), cela est plus simple pour nous à traiter et peut éviter que l'on passe à côté de la demande.

Merci beaucoup !

Ah mince, comme la question avait déjà été abordée je pensais que c'était mieux de rester dans ce fil de discussion.

1 « J'aime »