Bonjour,
Je constate un problème assez étrange avec le noeud cpu-node-81 (et seulement lui). Lorsque certains jobs arrivent sur ce noeud, nextflow n'arrive à détecter qu'ils sont terminé. L'étape de calcul ci-après ne qu'une dizaine de minute et le job reste bloqué pendant 1h.
Les jobs en question ne sont crashé, ils se terminent sans erreur après une assez longue période
Étonnamment, je me suis aperçu que faire un salloc sur ce noeud permettait de remettre à jour l'état d'un job à la fois, qui se termine à ma connexion en salloc.
C'est très étrange. Je ne vois rien tourner sur ce noeud quand je m'y connecte.
Pourriez vous m'aider ?
Merci,
Amine