Bonjour,
J'essaye de lancer un job alphafold sur les GPU mais à chaque fois, mon job est annulé avec le message suivant, au bout de 4h de calcul:
slurmstepd: error: *** JOB 21688234 ON gpu-node-03 CANCELLED AT 2022-03-21T15:58:24 DUE TO TIME LIMIT ***
J'ai utilisé les paramètres suivants dans mon script de soumission:
#SBATCH --partition=gpu
#SBATCH --gres=gpu:7g.40gb:1
#SBATCH --cpus-per-task=10
#SBATCH --mem=50G
#SBATCH --account=ancest_or
Est-ce qu'il faut que je modifie quelque chose?
Merci d'avance.
Bien cordialement,
Camille
$ scontrol show partition gpu
PartitionName=gpu
AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL
AllocNodes=ALL Default=NO QoS=N/A
DefaultTime=04:00:00 DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=3-00:00:00 MinNodes=0 LLN=NO MaxCPUsPerNode=UNLIMITED
Nodes=gpu-node-0[1-3]
PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
OverTimeLimit=NONE PreemptMode=OFF
State=UP TotalCPUs=186 TotalNodes=3 SelectTypeParameters=NONE
JobDefaults=(null)
DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED
Oui, par défaut, la limite est de 4h sur gpu.
Mais vous pouvez l'augmenter jusqu'à 3 jours
Pour un job d'une journée, par exemple :
#SBATCH --time 1-00:00:00
ou
#SBATCH --time 24:00:00
2 « J'aime »
Bonjour ! J ai le même erreur mais sur une partition "fast". On peut toujours augmenter le --time
en plus que 24h ? Sera-t-il accepté ,ou faut-il changer de partition pour tes jobs plus longues ?
STATE TIME TIME_LIMI NODES NODELIST(REASON)
PENDING 0:00 1-12:00:00 1 (PartitionTimeLimit)
Bah Oui ! Il faut évidement passer à une partition -p long
pour les jobs >24h