Bonjour,
J'ai lancé dernièrement un array de jobs de taille 1000. D'après le scheduler, celui-ci s'est exécuté correctement. Malheureusement, je n'ai que 983 tâches exécutées et aucune trace des 17 dernières (pas de log .e/.o, pas de message d'erreur).
J'ai relancé mon workflow pour qu'il exécute les 17 tâches restantes, mais le job-maître s'est aussitôt coupé avec le message d'erreur suivant :
slurmstepd: error: *** JOB 5171297 ON cpu-node-15 CANCELLED AT 2020-02-27T10:08:58 DUE TO TIME LIMIT ***
$ sacct -j 5171297
JobID JobName Partition Account AllocCPUS State ExitCode
5171297 Master.sh fast viroplant 1 TIMEOUT 0:0
5171297.bat+ batch viroplant 1 CANCELLED 0:15
Par acquis de conscience, j'ai relancé mon workflow une seconde fois pour voir si l'erreur se reproduisait. Officiellement, le job est lancé à la suite de ma commande.
Submitted batch job 5188792
Mais cette fois-ci, le job n'est jamais apparu dans la liste squeue et aucun log .e/.o correspondant n'a été généré dans mon répertoire de travail.
$ sacct -j 5188792
JobID JobName Partition Account AllocCPUS State ExitCode
5188792 Master.sh fast viroplant 1 FAILED 1:0
5188792.bat+ batch viroplant 1 FAILED 1:0
Idem pour la troisième tentative.
Que se passe-t-il ? Quelque chose a été modifié sur le cluster depuis la semaine dernier ? Comment puis-je me débloquer ?
Merci d'avance,
Aymeric Antoine-Lorquin
Au cas où ces informations soient importantes:
Répertoire de travail: /shared/projects/viroplant/VP-1
Environnement utilisé: conda activate NearVANA2-env
Commande de soumission: sbatch -o Master.o%j -e Master.e%j ~/Git/NearVANA/Master.sh NearVANA.arg.VP-1
Fichier de configuration des jobs: /shared/projects/viroplant/VP-1/NearVANA.ifb.slurm.conf