Job PENDING depuis presque 7 jours

ewicker · Août 31, 2021, 12:23

Bonjour,

J'ai lancé mercredi dernier un pipeline d'assemblage de données ONT (culebrONT) sur 4 génomes, qui utilise entre assembleurs le logiciel CANU.
Depuis 6 jours, les 4 jobs run_canu lancés par Culebront sont en statut PENDING, Reason=QOSMaxMemoryPerUser, alors que j'ai paramétré Canu pour utiliser au max 48G.

 JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
      18349674      long run_canu  ewicker PD       0:00     10 (QOSMaxMemoryPerUser)
      18349675      long run_canu  ewicker PD       0:00     10 (QOSMaxMemoryPerUser)
      18349679      long run_canu  ewicker PD       0:00     10 (QOSMaxMemoryPerUser)
      18349680      long run_canu  ewicker PD       0:00     10 (QOSMaxMemoryPerUser)
      18349631      long culebrON  ewicker  R 6-20:56:26      1 cpu-node-11

Pouvez-vous m'expliquer pourquoi ces jobs sont bloqués depuis si longtemps, et éventuellement proposer une stratégie d'optimisation de notre script pour que les jobs tournent plus rapidement ?
Merci d'avance pour votre aide et conseils,
EW

dbenaben · Août 31, 2021, 1:45

Bonjour Emmanuel,

La raison indiquée (QOSMaxMemoryPerUser) indique que vous avez dépassé la limite maximale de mémoire utilisable par utilisateur à un instant t. Soit 2To (cpu=400,mem=2T) de mémoire au total (comptabilisant tous les jobs running).
Pour visualiser les seuils de la QoS: sacctmgr -p show qos format=Name,MaxTRESPerUser.
Il faut alors attendre que des jobs se terminent (et que de la mémoire soit libérée) pour que les jobs puissent être à leur tour running.

Sur les jobs que vous venez de lancer, je pense que c'est le même problème.
Pour un job "canu", vous demander 25G/CPU et 100CPU, soit 2500Go au total pour un job.
Or la limite total par utilisateur est de 2000Go (2T).
Le job ne partira donc jamais... (les erreurs Slurm ne sont malheureusement pas toujours explicite).

Il faut donc abaisser la mémoire utilisée pour ce job (soit en diminuant mem-per-cpu, soit en spécifiant plutôt la mémoire total par nœud avec --mem).

Dites-moi si c'est bien ça

ewicker · Août 31, 2021, 2:31

Bonjour,

Effectivement la mémoire demandée pour ce job était trop importante. Le fichier de configuration cluster de CulebrONT a été modifié pour demander moins de CPUs.
Je viens de relancer un sbatch, et cette fois les jobs CANU tournent !
Merci pour votre aide,

Emmanuel