Problème avec cpu-node-6?

Quentin_Chartreux · Mai 23, 2022, 1:38

Bonjour,

Je voulais savoir s'il y avait un soucis particulier avec le cpu-node-6 ? Tous les job issus d'un sbatch array qui sont lancés sur ce nœud échouent instantanément sans même me créer de fichier de log (alors que les jobs de cet array lancés sur d'autre nœuds fonctionnent).
Par ailleurs quand je m'y connecte j'obtiens le message suivant :

quentin67100@cpu-node-6's password:
Creating directory '/shared/home/quentin67100'.
Unable to create and initialize directory '/shared/home/quentin67100'.
Last login: Thu Sep 9 14:59:26 2021 from clust-slurm-client.ifb.local
Could not chdir to home directory /shared/home/quentin67100: No such file or directory
-bash: /shared/software/modules/4.6.1/init/sh: Aucun fichier ou dossier de ce type
-bash-4.2$ ll

dbenaben · Mai 25, 2022, 7:28

Bonjour Quentin,

En effet (pb réseau sur la machine). L'erreur a été corrigé et le nœud est à nouveau fonctionnel.
Merci pour l'alerte.

Bonne journée

Quentin_Chartreux · Juin 14, 2022, 7:49

Bonjour,

est ce qu'il y aurait un nouveau problème sur le node 6? J'ai lancé un job d'annotation hier avec un array pour annoter en parallèle exactement le même nombre de variants, tous les autres jobs ont fini en 2h, et tous ceux sur le node 6 sont encore en cours au bout de 11h40. De plus quand j'essaye de me connecter sur le node c'est très lent et ca finit par me mettre ca (sans avoir entré de mdp):

Warning: Permanently added 'cpu-node-6,192.168.16.6' (ECDSA) to the list of known hosts.
Authentication failed.

dbenaben · Juin 14, 2022, 8:40

Bonjour Quentin,

En effet, le nœud cpu-node-6 était hors-service (erreurs "out of memory"). Nous avons dû le redémarrer.
Vos jobs (23280050_25, 23280050_26, 23280050_27, 23280050_28, 23280050_29) ont été impactés et terminés de force. Il faut très probablement les relancer.

Désolé pour le désagrément et merci pour l'alerte.

Quentin_Chartreux · Juin 14, 2022, 8:57

Merci pour votre réponse.

Les jobs ont l'air de s'être relancés sur d'autre noeuds donc je vais attendre et voir ce que ca donne.

Quentin_Chartreux · Juin 14, 2022, 5:00

Malheureusement je recois des mail de slurm du type :
Slurm Array Summary Job_id=23280050_* (23280050) Name=02_VEP.sh Ended, COMPLETED, ExitCode [0-0], with requeued tasks

Mais immédiatement un des jobs se relance et je recois le même mail une heure après...
A vrai dire sans ce problème de noeuds j'ai déjà eu ce soucis hier et au bout d'un moment ca m'a mis un "mixed" et les jobs avec dépendance qui suivent ont été annulés...

dbenaben · Juin 15, 2022, 7:35

Rien de vraiment anormal pour moi. Slurm fait son boulot en relançant le job.

Par contre, c'est vrai qu'il y a eu un enchaînement étrange (avec des erreurs de type "failure node" ou "OOM failure). Peut-être au pb initial avec cpu-node-6.

Extrait log

[2022-06-15T03:15:29.735] requeue job JobId=23280050_26(23293803) due to failure of node cpu-node-59
[2022-06-15T03:15:29.735] Requeuing JobId=23280050_26(23293803)
[2022-06-15T04:38:49.506] requeue job JobId=23280050_26(23293803) due to failure of node cpu-node-58
[2022-06-15T04:38:49.506] Requeuing JobId=23280050_26(23293803)
[2022-06-15T06:33:49.991] requeue job JobId=23280050_26(23293803) due to failure of node cpu-node-13
[2022-06-15T06:33:49.991] Requeuing JobId=23280050_26(23293803)
[2022-06-15T06:35:47.002] _job_complete: JobId=23280050_26(23293803) OOM failure
[2022-06-15T06:35:47.002] _job_complete: JobId=23280050_26(23293803) cancelled by interactive user
[2022-06-15T08:17:09.962] requeue job JobId=23280050_26(23293803) due to failure of node cpu-node-45
[2022-06-15T08:17:09.962] Requeuing JobId=23280050_26(23293803)
[2022-06-15T08:19:26.575] sched/backfill: _start_job: Started JobId=23280050_26(23293803) in fast on cpu-node-72
[2022-06-15T08:34:56.091] error: Registered JobId=23280050_26(23293803) StepId=23293803.batch on wrong node cpu-node-45
[2022-06-15T08:34:56.091] debug:  Aborting JobId=23280050_26(23293803) on node cpu-node-45

Le job est en 23280050_26 est en train de tourner.
Du coup, je laisserais tourner et si jamais cela se reproduit, tenter d'annuler ce job (scancel 23280050) et le relancer (uniquement ce traitement, pas l'array) et avec plus de mémoire.

Quentin_Chartreux · Juin 15, 2022, 8:04

Merci pour la réponse, je vais donc faire ca même si c'est vraiment pas pratique car ce jobs s'inscrit dans un "pipeline" écrit avec des dépendance entre sbatch, donc tous les sbatch qui suivent vont être tués

dbenaben · Juin 15, 2022, 8:16

Bon ben je constate que le job a été a nouveau relancé, et à laisser le cpu-node-72 HS.
Je suppose donc que ce job est un tueur de nœud de calcul... d’où les relances systématiques.
Je soupçonne un problème mémoire. Peut-être tenter en demandant bcp plus de mémoire pour le traitement.

Quentin_Chartreux · Juin 15, 2022, 8:33

Ah mince.. Je trouve ca assez étonnant sachant que tous les autres jobs d'annotation qui ont exactement le même nombre de variants n'ont pas posés de soucis.
On a droit à combien de ram ? Car la je demande déjà beaucoup 10G * 100 jobs

dbenaben · Juin 15, 2022, 8:45

Ce n'est peut-être pas directement lié au job (peut-être dû au plantage du cpu-node-6 précédent)
Un seul nœud peut monter à 250G. Essayer en relançant uniquement pour ce job (et en triplant la mémoire par exemple).