Problèmes node_fail

Bonjour,

Je constate depuis quelques semaines des NODE_FAIL que je ne comprends pas. Les jobs qui ont eu ce problème finissent par marcher à la deuxième relance avec très peu ou pas de changement du script.

A quoi sont du les NODE_FAIL ?

Bonjour @emendes,

Cela varie.
C'est peut être dû à des problèmes matériels (disque dur en panne, barrette mémoire défectueuse, etc.) ou logiciel (erreur d'accès au stockage, out of memory, etc.).
Au final, le nœud est déclaré en erreur (Slurm Workload Manager - squeue) et nécessite qu'un admin regarde.

Si cela se produit trop souvent, n'hésitez pas à nous alerter en nous fournissant les numéros de jobs pour qu'on regarde de plus près.

Bonne journée

1 « J'aime »

Bonjour,

j'ai eu un node_fail et je ne comprends pas pourquoi:

Slurm Job_id=27242710 Name=nr-bis Failed, Run time 2-17:02:12, NODE_FAIL, ExitCode 0

Bonjour,

Je ne vois aucune erreur "NODE_FAIL" (le noeud utilisé par votre job fonctionne toujours et correctement).
Nos logs indiquent que le job a été annulé:

*** JOB 27242710 ON cpu-node-11 CANCELLED AT 2022-11-28T15:28:11 ***

Comment avez-vous eu ce message d'erreur ? Pouvez-vous nous indiquer le chemin vers les fichiers de sortie ?

en fait quand le job a eu le node_fail (Sam 03:23) il s'est relancé seul à Sam 21:06:

Slurm Job_id=27242710 Name=nr-bis Began, Queued time 17:42:35

et après je l'ai annulé ...

Je ne vois pas d'explication, le controller (slurm) détecte ce noeud down ("nodes cpu-node-40 not responding") et le déclare DOWN quelques minutes plus tards.

[2022-11-26T03:22:12.100] error: Nodes cpu-node-40 not responding
[2022-11-26T03:22:13.100] error: Nodes cpu-node-40 not responding
[2022-11-26T03:22:14.101] error: Nodes cpu-node-40 not responding
[2022-11-26T03:22:15.101] error: Nodes cpu-node-40 not responding
[2022-11-26T03:22:16.559] error: Nodes cpu-node-40 not responding
[2022-11-26T03:22:17.559] error: Nodes cpu-node-40 not responding
[2022-11-26T03:22:22.605] error: Nodes cpu-node-40 not responding
[2022-11-26T03:23:52.193] requeue job JobId=27214713 due to failure of node cpu-node-40
[2022-11-26T03:23:52.193] requeue job JobId=27242710 due to failure of node cpu-node-40
[2022-11-26T03:23:52.194] error: Nodes cpu-node-40 not responding, setting DOWN

Le nœud est ensuite revenu à la normal. Je suspecte une charge trop importante.

Pouvez-vous nous en dire plus sur le type de traitement (lien vers votre script/résultat par exemple) ?

Oui alors le script est taxo_reads_nr_euk.sh ... je le fais tourner plusieurs fois et les autres job en cours n'ont pas eu encore d'erreur.
Mais j'ai déjà eu 1 ou 2 autres node_fail en utilisant kaiju.

Je ne vois pas d'anomalie particulière.
Difficiles d'aller plus loin.
J'imagine que le serveur a saturé pendant un moment ou a fait planter certains process critiques.

Dites-nous si cela devient bloquant.

Merci d'avoir vérifié. Alors j'ai fait un test et il y a une faille majeure je pense....Je vous explique car c'est grandiose.

J'ai fait tourner un script kaiju sur la partition --long car la --fast n'a pas suffit avec la moitié de mes fichiers à traiter. Certains jobs ont tourné pendant > 6 jours et j'ai trouvé ça bizarre car des jobs lancés avec des fichiers parfois plus gros ont été exécuté en 20 h max.

Pour tester j'ai exec mon script sur la partition bigmem et le temps d'exécution est passé de >3 jours à 40 minutes ( par exemple) !!!!!!!!!!!!!

J'ai noté des cpu-node problématiques qui ont été très très lents avec l'exécution du mon script: 26,48,45,36,18. J'espère que ça pourra vous aider car la c'est très étrange et ce n'est pas normal.