Jobs stuck at 'PENDING'

Guillaume_Lan-Fong · Février 22, 2023, 5:46

Bonjour,

Depuis ce matin, les jobs que j'essaie de lancer restent bloqués en statut 'PENDING' indéfiniment, qu'il s'agisse de jobs lancés via sbatch ou l'ouverture d'un serveur jupyter.

À première vue je ne pense pas avoir dépassé le quota de mémoire CPU disponible par utilisateur (problème soulevé dans un topic similaire : Job PENDING depuis presque 7 jours) ; ci-dessous, un exemple de la sortie squeue pour un job :

             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
          31961718      fast     wrap glanfong PD       0:00      1 (Priority)

J'avais cependant dépassé ma limite de stockage autorisé d'une cinquantaine de Go durant la nuit ; si d'éventuelles restrictions sont automatiquement mises en place pour limiter la surcharge de l'espace de stockage lorsqu'un utilisateur dépasse son quota et l'empêche de lancer de nouveaux jobs, cela expliquerait peut-être cette situation ?

La situation concernant le stockage est cependant normalement régularisée et je souhaitais justement lancer des jobs de compression pour libérer de l'espace supplémentaire par la suite, mais semble bloqué sans pouvoir soumettre de jobs.

En vous remerciant par avance,
Guillaume

emendes · Février 23, 2023, 9:05

Bonjour,

Trop de jobs lancés par certaines personnes ...

dbenaben · Février 23, 2023, 9:05

Bonjoru @Guillaume_Lan-Fong

Le cluster est complètement saturé depuis hier et les temps d'attentes sont donc important (état "PENDING"). Ce n'est donc pas lié au stockage dans ce cas.
La nuit n'ayant pas aidé à résorber la charge, nous avons pris de nouvelles mesures ce matin.

Par contre, vous avez en effet atteins le nombre max de fichier stockés dans votre "home directory"
(/shared/home/glanfong avec plus de 200K fichiers)
Vous pouvez voir ce quota avec la commande: lfs quota -h -p 160680 /shared/home/glanfong
Je vous invite donc à faire un peu de ménage (souvent dû aux environnements conda) ou à déplacer vos données dans votre espace projet.

Bonne journée

bonospora · Février 23, 2023, 9:50

Bonjour,

par rapport à votre remarque sur le nombre max de fichier stockés dans votre "home directory",
si je fais votre commande lfs quota -h -p 160680 /shared/home/lbonometti, la commande m'indique aussi que mon quota est dépassé

Filesystem used quota limit grace files quota limit grace
/shared/home/lbonometti
14.52G 100G 150G - 201986* 198048 288048 none

par contre, si je fait tree -a ./. | tail -n1 je n'ai que 11325 fichier, donc bien loin des 200 000

529 directories, 11325 files

n'y aurait-il pas un problème ? comment faire du ménage dans ce cas ?

Bien cordialement,

Lucas Bonometti

pdelangen13 · Février 23, 2023, 10:29

Bonjour,
Je suis également dans l'impossibilité d'obtenir un noeud pour lancer un job, après une investigation rapide il y a plus de 8300 jobs "galaxy" lancés par des centaines/milliers d'utilisateurs dont le nom commence par "g2..." (ex. g2499636), chacun semblant occuper un demi-noeud et durer une journée... Est-ce que ça semble découler d'une utilisation normale du service galaxy ? A ce rythme le cluster risque d'être bloqué une bonne semaine.

squeue | grep galaxy | grep g2 | wc -l
8360

Bonne journée,
Pierre

Guillaume_Lan-Fong · Février 23, 2023, 10:49

Bonjour,

Je vous remercie pour votre réponse et ces explications ! Le nombre de fichiers dans mon 'home directory" est à nouveau dans les quotas ; j'avoue ne pas avoir pensé à vérifier après avoir installé des environnements conda.

Par pure curiosité, y aurait-il un outil de monitoring des ressources disponibles sur le cluster, pour ne pas avoir à vous déranger si une situation similaire devait ré-arriver ?

En vous remerciant une fois encore,
Bonne journée !

dbenaben · Février 23, 2023, 12:50

@bonospora la bonne commande pour votre quota est

lfs quota -h -p 160571 /shared/home/lbonometti

Nous n'avons pas pris le temps de faire un wrapper (la commande dépends du n° de projet affecté...).

@pdelangen13 En effet, il y a énormément de jobs Galaxy en attente (de qques minutes à pls heures). Nous réfléchissons sur les solutions pour purger cette surcharge.

@Guillaume_Lan-Fong status_bars devra faire l'affaire. Mais nous devons encore le faire évoluer pour afficher plus d'indicateurs (exapce /home, nombre de fichier, ...). En attendant, faut nous déranger

bonospora · Février 23, 2023, 1:25

ah d'accord, je comprends mieux
merci beaucoup ! Bonne journée !

Lucas Bonometti

Mag · Février 23, 2023, 2:45

Une petite fonction que l'un de vous m'avez donnée fait très bien le job:

lfsgetquota () {
   gid=$(getent group $1 | cut -f 3 -d ':')
   if [ -d /shared/projects/$1 ]
   then
       lfs quota -h -p $gid /shared/projects/$1
   fi
   if [ -d /shared/home/$1 ]
   then
       lfs quota -h -p $gid /shared/home/$1
   fi

}

Si vous la copiez dans votre .bashrc, elle sera utilisable (après redémarrage du shell ou source .bashrc) à la fois pour un projet ou un utilisateur:

[mhennion @ core-login2 15:39]$ ~ : lfsgetquota mhennion
Disk quotas for prj 160521 (pid 160521):
    Filesystem    used   quota   limit   grace   files   quota   limit   grace
/shared/home/mhennion
                9.892G    100G    150G       -    7364  100000  150000       -
[mhennion @ core-login2 15:39]$ ~ : lfsgetquota bi4edc
Disk quotas for prj 100530 (pid 100530):
    Filesystem    used   quota   limit   grace   files   quota   limit   grace
/shared/projects/bi4edc
                859.5G      1T    1.5T       -  666921  1024000 1536000       -

Très pratique!

Magali