Job sur bigmem ... pending status depuis plusieurs jours

cmariac · Septembre 17, 2019, 7:57

Bonjour
je tente de lancer un job sur bigmem sans succès.
Il est placé en pending status depuis plusieurs jours alors qu'il semblerait que les ressources sur bigmem soient disponibles.

La partition bigmem utilise le node cpu-node-69, est il possible que ce noeud soit actuellement utilisé par une autre partition ?

Pourriez vous valider mon script ci dessous.

MERCI !
Cordialement
Cédric MARIAC

#!/bin/bash

#SBATCH -N 1 # nombre de nœuds
#SBATCH -n 4 # nombre de cœurs
#SBATCH --mem 1000GB # mémoire vive pour l'ensemble des cœurs
#SBATCH -t 8-00:00 # durée maximum du travail (D-HH:MM)
#SBATCH -o slurm.%N.%j.out # STDOUT
#SBATCH -e slurm.%N.%j.err # STDERR
#SBATCH --partition bigmem

singularity exec flye-2.4.1.simg flye --nano-raw ALL-ONT-fastqpass-FFF.fastq -o flye-results -g 2g -t 8

julien · Septembre 17, 2019, 1:54

Le noeud 69 est actuellement occupé par de nombreux jobs d'un autre utilisateur. Ainsi les ressources demandés ne sont pas encore disponibles.

Vous pouvez consulter les jobs en cours d'execution sur ce noeud en utilisant la commande suivante :
squeue --nodelist=cpu-node-69 -l

Ces jobs ont été lancé avant que la nouvelle partition bigmem soit créée.

Votre script me semble tout à fait correct.
(Il manque peut être un srun devant la ligne singularity exec... mais c'est un détail de bonne pratique)

Dès lors que les jobs en cours seront terminés les votre pourront démarrer.

cmariac · Septembre 18, 2019, 5:54

Merci Julien,
Ceci explique pourquoi tous les noeuds de la partition bigmem soient actuellement réservés par les partition Fast ou Long.
Cependant il me semble que sur cpu-node-69 un certain nombre de noeuds qui "travaillent" pas sont inaccessibles.
Est il possible qu'ils aient été réservés lors d'un lancement de job (-n 64) sans pour autant qu'ils soient nécessaires ou utilisables mais du coup soient inaccessibles aux autres utilisateurs ?

ssh cpu-node-69
htop

Merci
Cordialement
Cédric

julien · Septembre 18, 2019, 8:04

Le noeud 69 dispose en tout de 64 coeurs (128 threads) et 3To de RAM.
Il y a actuellement 64 jobs en cours sur ce noeud réservant chacun 1 coeur. La réservation est valable que le coeur soit effectivement en utilisation en pleine charge ou non.

Tant que ces jobs ne sont pas terminés où qu'ils n'ont pas atteint de la walltime de 30 jours, les ressources ne seront pas libérées.

cmariac · Septembre 18, 2019, 12:11

Ok, merci pour ces infos.

pourriez vous transferer ces messages sur la plateforme communautaire ?

julien · Septembre 18, 2019, 12:18

julien · Septembre 18, 2019, 12:19

Pas de soucis, c'est fait

Guillaume · Octobre 7, 2019, 11:22

Bonjour

De retour sur le cluster après qq mois d'absence, j'essaie de lancer un sbatch sur la nouvelle partition bigmem mais j'ai une erreur que je n'arrive pas à résoudre.

sbatch ./SPADES.SLURM
sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified

Y a t'il maintenant une politique d'accounting ou bien est ce que j'ai une erreur dans mon script?
Est ce qu'un admin peut jeter un oeil sur mon script /shared/projects/phycovir/JGI/SPADES.SLURM pour voir ce qui cloche ?

Un grand merci

Guillaume

dbenaben · Octobre 7, 2019, 12:26

Bonjour Guillaume,

Je ne vois pas de problème dans le script (juste penser à nettoyer tmpDir à la fin du job).
On continuer de fouiller pour voir ce qui cloche.

dbenaben · Octobre 8, 2019, 8:47

Bonjour @Guillaume,

Pour éviter de saturer inutilement la partition bigmem et en attendant un système plus flexible, il est maintenant nécessaire de demander l'accès à bigmem.

Je viens de vous autoriser l'accès. Votre script/job doit pouvoir être à nouveau lancé.

Bonne journée

Guillaume · Octobre 8, 2019, 8:48

Super, merci beaucoup

Guillaume · Décembre 2, 2020, 3:16

Bonjour

je rencontre un nouveau probleme pour lancer un job sur bigmem qui est pourtant libre actuellement:

sinfo  -p bigmem
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
bigmem       up 60-00:00:0      1   idle cpu-node-69

Une fois lancé via sbatch, le script ne se lance pas:

squeue -p bigmem
JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
14150233    bigmem MMSEQS69   gblanc PD       0:00      1 (ReqNodeNotAvail, UnavailableNodes:cpu-node-[6-12,15,20,22-26,72-73])

Pourtant ma réservation semble correcte (et a déjà fonctionné comme telle):

#SBATCH -p bigmem
#SBATCH --mem=1000G
#SBATCH --qos=bigmem
#SBATCH --cpus-per-task=60

Une idée du problème?
Merci
Guillaume

julien · Décembre 3, 2020, 6:52

Bonjour Guillaume,

En prévision de notre coupure du 16 et 17 décembre prochain, une réservation a été placée sur l'ensemble des noeuds de calcul du cluster. Il est ainsi impossible de lancer un job qui risque d'empiéter sur la période de coupure.
En lançant un job sur la partition bigmem sans préciser de limite de temps, le job est supposé pouvoir tourner pendant la durée maximum autorisée de la partition, soit 60 jours. Il est donc actuellement refusé par le cluster.

Afin de pouvoir lancer votre job, vous devez spécifier une limite de temps inférieur à 13 jours en ajoutant par exemple l'option :

#SBATCH --time=10-00:00:00

Julien

Guillaume · Décembre 3, 2020, 10:24

Ok Julien, merci pour la précision.
C'est plus clair maintenant
Bonne journée