Problème de réactivité sur le noeud cpu-node-81

Bonjour,

Je constate un problème assez étrange avec le noeud cpu-node-81 (et seulement lui). Lorsque certains jobs arrivent sur ce noeud, nextflow n'arrive à détecter qu'ils sont terminé. L'étape de calcul ci-après ne qu'une dizaine de minute et le job reste bloqué pendant 1h.


Les jobs en question ne sont crashé, ils se terminent sans erreur après une assez longue période
Étonnamment, je me suis aperçu que faire un salloc sur ce noeud permettait de remettre à jour l'état d'un job à la fois, qui se termine à ma connexion en salloc.

C'est très étrange. Je ne vois rien tourner sur ce noeud quand je m'y connecte.

Pourriez vous m'aider ?

Merci,
Amine

Bonjour Amine,

En effet, c'est étrange. Je n'ai pas de piste et ne vois rien d'anormal sur le nœud.
Je n'arrive pas non plus à reproduire le problème.
Si ça se devait se répéter, on essaiera de pousser l’investigation (il faudra nous donner plus d'infos -scripts, log, etc-). In fine, faudrait qu'on arrive à le reproduire.

Bonne journée