Job annulé (time limit)

cmeslin · Mars 21, 2022, 3:06

Bonjour,

J'essaye de lancer un job alphafold sur les GPU mais à chaque fois, mon job est annulé avec le message suivant, au bout de 4h de calcul:
slurmstepd: error: *** JOB 21688234 ON gpu-node-03 CANCELLED AT 2022-03-21T15:58:24 DUE TO TIME LIMIT ***

J'ai utilisé les paramètres suivants dans mon script de soumission:
#SBATCH --partition=gpu
#SBATCH --gres=gpu:7g.40gb:1
#SBATCH --cpus-per-task=10
#SBATCH --mem=50G
#SBATCH --account=ancest_or

Est-ce qu'il faut que je modifie quelque chose?
Merci d'avance.
Bien cordialement,
Camille

gildaslecorguille · Mars 28, 2022, 1:34

$ scontrol show partition gpu
PartitionName=gpu
   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
   AllocNodes=ALL Default=NO QoS=N/A
   DefaultTime=04:00:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
   MaxNodes=UNLIMITED MaxTime=3-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED
   Nodes=gpu-node-0[1-3]
   PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
   OverTimeLimit=NONE PreemptMode=OFF
   State=UP TotalCPUs=186 TotalNodes=3 SelectTypeParameters=NONE
   JobDefaults=(null)
   DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED

Oui, par défaut, la limite est de 4h sur gpu.
Mais vous pouvez l'augmenter jusqu'à 3 jours

Pour un job d'une journée, par exemple :

#SBATCH --time 1-00:00:00

ou

#SBATCH --time 24:00:00

maria_myologie · Août 1, 2022, 10:19

Bonjour ! J ai le même erreur mais sur une partition "fast". On peut toujours augmenter le --time en plus que 24h ? Sera-t-il accepté ,ou faut-il changer de partition pour tes jobs plus longues ?

STATE       TIME TIME_LIMI  NODES NODELIST(REASON)
PENDING       0:00 1-12:00:00      1 (PartitionTimeLimit)

maria_myologie · Août 1, 2022, 10:27

Bah Oui ! Il faut évidement passer à une partition -p long pour les jobs >24h