Bonjour,
Les erreurs "launch failed requeued held" sont dues au noeud de calcul cpu-node-80
(cf Srun: error: Task launch failed: Unspecified error - #8 par dbenaben).
Le problème a été résolu.
Il y a peut-être eu d'autres problèmes, mais je n'en trouve pas traces.
En espérant, qu'on ne rencontre plus ce type d'anomalies.
A suivre...
PS: lorsque les jobs sont bloqué dans cet état, il faut alors les "libérer" via:
scontrol release <job_list>