J'ai lancé un job qui s'est arrêté plusieurs heures après (mais moins de 24 heures). Seulement, le message d'erreur de slurmstepd n'est pas informatif :
slurmstepd: error: *** STEP 27133906.0 ON cpu-node-16 CANCELLED AT 2022-11-15T19:00:27 ***
Il semble que slurmstepd ne donne pas de raison quant à l'annulation. Pourriez-vous me dire ce qui s'est passé à votre avis, ou comment en savoir plus ?
Pour info, voici la commande du job : module load r/4.1.1 && srun --mem=150GB --account=ucd_scrnaseq_stroma_cd45 --ntasks=1 --cpus-per-task=3 -o file.out -e file.err Rscript get_markers.R &.