Job annulé sans raison (slurmstepd CANCELLED)

Bonjour,

J'ai lancé un job qui s'est arrêté plusieurs heures après (mais moins de 24 heures). Seulement, le message d'erreur de slurmstepd n'est pas informatif :

slurmstepd: error: *** STEP 27133906.0 ON cpu-node-16 CANCELLED AT 2022-11-15T19:00:27 ***

Il semble que slurmstepd ne donne pas de raison quant à l'annulation. Pourriez-vous me dire ce qui s'est passé à votre avis, ou comment en savoir plus ?

Pour info, voici la commande du job : module load r/4.1.1 && srun --mem=150GB --account=ucd_scrnaseq_stroma_cd45 --ntasks=1 --cpus-per-task=3 -o file.out -e file.err Rscript get_markers.R &.

Merci !
Florian

Bonjour Florian,

Votre compte est configuré pour utiliser le compte demo par défaut.
Ce compte est limité et le quota a été atteint, d'où l'annulation de votre job.

Il faut préciser le compte/projet à utiliser à la soumission avec l'option -A (via srun, sbatch ou en directive dans votre script via #SBATCH):

srun -A <project> --mem=150GB ...

<project> étant un de vos projets demandé via: IFB Core Cluster Account Manager / My Project
Par exemple, dans votre cas, "ucd_scrnaseq_stroma_cd45".

Ou modifier le compte par défaut à utiliser:

sacctmgr update user $USER set defaultaccount=<project>

Bonne continuation

[EDIT] La commande status_bars est votre amie

Bonjour,

Merci pour votre réponse, mais j'utilise déjà l'argument -A/--account (c.f. message précédent, la commande s'affiche sur plusieurs lignes).

Ah oui pardon, je n'avais pas vu.

Je ne comprends pas. Tout indique que le job a été annulé au environ de 19h hier...

Est-ce que cela se reproduit ?

J'ai relancé le job hier, et j'ai le même message d'erreur :

slurmstepd: error: *** STEP 27146787.0 ON cpu-node-53 CANCELLED AT 2022-11-16T18:58:08 ***

Je ne comprends pas très bien pourquoi.... Est-ce que ça peut être à cause de srun, sbatch est-il plus stable ?

Je ré-essaye avec sbatch

Bonjour David,

Je n'ai pas d'explication, mais ça a fonctionné avec sbatch...

Merci pour ton aide ! :slight_smile:

Bonjour,

J'avoue que je sèche. Je ne comprends pas ce qui cloche...

Merci pour le retour en tout cas. Content que tu es trouvé une solution de contournement.