Submit a job--launch failed requeued held

Dear,

I have a problem in the cluster. I get this error "launch failed requeued held" when I submit the job. I don't know how to fix it, can someone help me fix it?

Thanks a lot.

Have a good day,
Rui

Hello,

I have the same problem since this morning, I think is due to a faulty node and not to the script

Bonjour,

En effet, cela est dû a un nœud défectueux (cpu-node-25).
J'ai retiré (drain) le nœud du cluster, le temps que l'on corrige le problème.

Pour relancer les jobs avec l'erreur "launch failed requeued held", il faut "libérer" les jobs via:

scontrol release <jobid>

@rzhang @Maya_Arnould je viens de le faire pour vous.

Désolé du désagrément.

Bonne journée