Impossible de lancer des jobs

Bonjour,

J'ai lancé dernièrement un array de jobs de taille 1000. D'après le scheduler, celui-ci s'est exécuté correctement. Malheureusement, je n'ai que 983 tâches exécutées et aucune trace des 17 dernières (pas de log .e/.o, pas de message d'erreur).

J'ai relancé mon workflow pour qu'il exécute les 17 tâches restantes, mais le job-maître s'est aussitôt coupé avec le message d'erreur suivant :
slurmstepd: error: *** JOB 5171297 ON cpu-node-15 CANCELLED AT 2020-02-27T10:08:58 DUE TO TIME LIMIT ***

$ sacct -j 5171297
JobID JobName Partition Account AllocCPUS State ExitCode
5171297 Master.sh fast viroplant 1 TIMEOUT 0:0
5171297.bat+ batch viroplant 1 CANCELLED 0:15

Par acquis de conscience, j'ai relancé mon workflow une seconde fois pour voir si l'erreur se reproduisait. Officiellement, le job est lancé à la suite de ma commande.
Submitted batch job 5188792

Mais cette fois-ci, le job n'est jamais apparu dans la liste squeue et aucun log .e/.o correspondant n'a été généré dans mon répertoire de travail.

$ sacct -j 5188792
JobID JobName Partition Account AllocCPUS State ExitCode
5188792 Master.sh fast viroplant 1 FAILED 1:0
5188792.bat+ batch viroplant 1 FAILED 1:0

Idem pour la troisième tentative.

Que se passe-t-il ? Quelque chose a été modifié sur le cluster depuis la semaine dernier ? Comment puis-je me débloquer ?

Merci d'avance,

Aymeric Antoine-Lorquin

Au cas où ces informations soient importantes:
Répertoire de travail: /shared/projects/viroplant/VP-1
Environnement utilisé: conda activate NearVANA2-env
Commande de soumission: sbatch -o Master.o%j -e Master.e%j ~/Git/NearVANA/Master.sh NearVANA.arg.VP-1
Fichier de configuration des jobs: /shared/projects/viroplant/VP-1/NearVANA.ifb.slurm.conf

Bonjour Aymeric,

Merci pour ce retour complet.
Suite à une anomalie, nous avons dû procéder à quelques modifications et malheureusement cela corresponds à l'heure de plantage des jobs.
Toutes nos excuses pour ce problème.

Je pense avoir compris l'erreur. Je reviens vers vous dès que c'est corrigé.

Aymeric,

Pouvez-vous essayer de vous déconnecter/reconnecter et relancer un job ?

Ok.

Je viens d'essayer, ça ne marche pas:

$ sbatch -o Master.o%j -e Master.e%j ~/Git/NearVANA/Master.sh NearVANA.arg.VP-1
Submitted batch job 5188878
$ squeue -u aantoinelorquin
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

Pas de log .e/.o dans le dossier de travail.

Aymeric,

Ça devrait être bon maintenant (problème dû au cache sur les nœuds de calcul).
Pouvez-vous me confirmer ?

Le lancement du job-maître se fait maintenant correctement.

Par contre, les jobs lancés par l'intermédiaire du script ne sont pas fonctionnels.

$cat Master.o5188881
[...]
sbatch --cpus-per-task=1 --mem=25G --partition=long --job-name VP-1_Run_Diamond -e Run_Diamond.e -o Run_Diamond.o /shared/home/aantoinelorquin/Git/NearVANA/Run_Diamond.sh NearVANA.arg.VP-1
Submitted batch job 5188881

$sacct -j 5188881
JobID JobName Partition Account AllocCPUS State ExitCode
5188881 VP-1_Run_+ long viroplant 1 FAILED 1:0
5188881.bat+ batch viroplant 1 FAILED 1:0

Argh.

C'est corrigé (la commande exécuté précédemment n'a pas correctement vidé les caches).

Après avoir insisté et vérifié 246 fois, on devrait maintenant être bon. Pouvez-vous vérifier ?

C'est bon, tout fonctionne correctement.

Merci beaucoup !

Aymeric

OK. Super.

Désolé pour le couac et merci pour vos prompts retours.

Bon après-midi