“launch failed requeued held”

Bonjour,
Depuis 3 jours j'ai régulièrement le même problème sur la partition fast (je n'ai pas essayé sur la partition long). Pour le même array, un certain nombre de jobs passent sans encombres et d'autres renvoient le status “launch failed requeued held” et mettent du temps à être relancés, quand ils le sont.
Merci d'avance,
Maud F.

Bonjour,

L'erreur "launch failed requeued held" signale une erreur lors du lancement du job, la plupart du temps à cause d'un serveur de calcul défaillant.

Ceci dit, je ne vois pas d'erreur de ce type pour vos jobs... Avez-vous des jobids à nous donner pour regarder plus en détail ?

Bonne journée

Bonjour,

J'ai supprimé les jobs concernés vendredi soir, ça doit être pour ça. Les jobs 33162658_8 à 33162658_19 étaient concernés par exemple. J'avais fini par isoler le noeud 29 comme source du problème, et du coup j'avais relancé la plupart de mes jobs avec l'option --exclude=cpu-node-29. Ceci dit, en fin de soirée, les jobs ne se lançaient plus du tout sur ce noeud, même sans utiliser l'option, donc j'ai pensé qu'il avait été déconnecté, mais c'était peut-être juste un coup de chance. En tout cas, je n'ai pas été de nouveau confrontée à ce problème pendant le week-end apparemment, vu que tous mes job arrays ont tournés comme prévu.
Maud Fagny.

D'accord. Merci pour vos retours.
N'hésitez pas à nous donner les jobid si cela se reproduit.

Bonjour,

J'ai aussi ce problème depuis plusieurs jours ...
J'ai un array en cours et par exemple les job 33194650_6 et 33194650_11 ont le status "launch failed requeued held".

Merci d'avance,
Mathilde

Bonjour,
Je viens de revoir le même soucis sur la partition long cette fois avec les jobs 33201768 33201769 33201767 33201763 33201762 33201760 33201757 33201756 33201755 33201754 33201750 33201749 33201747 33201746 33201745 33201740 33201739 33201738 33201737 33201736 33201735 33201730 33201728 33201727 33201726 33201725 33201724 33201719 33201718 33201717 33201716 33201715 33201707 33201706 33201705 33201704 33201703 33201698 33201697 33201696. Cette fois je ne les annule pas pour vous laisser les regarder.
Je n'ai pas eu le temps d'identifier le ou les noeuds concernés cette fois.
Maud.

Update : le noeud 29 a toujours l'air d'être responsable que ce soit sur la partition fast ou long, en tout cas l'option --exclude cpu-node-29 permet de ne pas mettre en échec les jobs.

Merci pour vos signalements @mfagny et @mrobin

Oui tout à fait. Tous vos calculs ont tenté de s’exécuter sur cpu-node-29 qui ne se comportait plus normalement (un process système en erreur).
Un redémarrage a remis les choses en ordre pour le cpu-node-29.

1 « J'aime »