HELP launch failed requeued held

Hello, I'm having a problem in the cluster since yesterday afternoon. When I send a job I have this error "(launch failed requeued held)". Can someone please explain what's the problem and what can I do to fix it?

Thanks a lot

Hello Julie,

Jobs can be "requeued" after launch failed.
In you case, it happens sometimes, a node was in error (up but not running correctly).
Slurm try to run your job on this idle node, but it goes wrong, and the job is "requeued held".
The failed node (cpu-node-35) have been reboot. It's ok right now.

So nothing to do. It was a error on the server.

Thanks for reporting

1 « J'aime »

Bonjour,

Aujourd'hui j'ai eu le même message : (launch failed requeued held) sur deux jobs lancés ce matin.
Merci pour votre aide,
Bien cordialement,

Pilar Rodriguez

Nous sommes plusieurs a avoir ce message depuis plusieurs jours..

Bonjour,

Les erreurs "launch failed requeued held" sont dues au noeud de calcul cpu-node-80 (cf Srun: error: Task launch failed: Unspecified error - #8 par dbenaben).
Le problème a été résolu.
Il y a peut-être eu d'autres problèmes, mais je n'en trouve pas traces.

En espérant, qu'on ne rencontre plus ce type d'anomalies.
A suivre...

PS: lorsque les jobs sont bloqué dans cet état, il faut alors les "libérer" via:

scontrol release <job_list>
1 « J'aime »

Bonjour,
Merci énormément pour votre support. Je suis désolée de ma réponse tardive mais j'étais en congés.
Bien cordialement,
Pilar