Depuis ce matin, les jobs que j'essaie de lancer restent bloqués en statut 'PENDING' indéfiniment, qu'il s'agisse de jobs lancés via sbatch ou l'ouverture d'un serveur jupyter.
À première vue je ne pense pas avoir dépassé le quota de mémoire CPU disponible par utilisateur (problème soulevé dans un topic similaire : Job PENDING depuis presque 7 jours) ; ci-dessous, un exemple de la sortie squeue pour un job :
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
31961718 fast wrap glanfong PD 0:00 1 (Priority)
J'avais cependant dépassé ma limite de stockage autorisé d'une cinquantaine de Go durant la nuit ; si d'éventuelles restrictions sont automatiquement mises en place pour limiter la surcharge de l'espace de stockage lorsqu'un utilisateur dépasse son quota et l'empêche de lancer de nouveaux jobs, cela expliquerait peut-être cette situation ?
La situation concernant le stockage est cependant normalement régularisée et je souhaitais justement lancer des jobs de compression pour libérer de l'espace supplémentaire par la suite, mais semble bloqué sans pouvoir soumettre de jobs.
Le cluster est complètement saturé depuis hier et les temps d'attentes sont donc important (état "PENDING"). Ce n'est donc pas lié au stockage dans ce cas.
La nuit n'ayant pas aidé à résorber la charge, nous avons pris de nouvelles mesures ce matin.
Par contre, vous avez en effet atteins le nombre max de fichier stockés dans votre "home directory"
(/shared/home/glanfong avec plus de 200K fichiers)
Vous pouvez voir ce quota avec la commande: lfs quota -h -p 160680 /shared/home/glanfong
Je vous invite donc à faire un peu de ménage (souvent dû aux environnements conda) ou à déplacer vos données dans votre espace projet.
par rapport à votre remarque sur le nombre max de fichier stockés dans votre "home directory",
si je fais votre commande lfs quota -h -p 160680 /shared/home/lbonometti, la commande m'indique aussi que mon quota est dépassé
Bonjour,
Je suis également dans l'impossibilité d'obtenir un noeud pour lancer un job, après une investigation rapide il y a plus de 8300 jobs "galaxy" lancés par des centaines/milliers d'utilisateurs dont le nom commence par "g2..." (ex. g2499636), chacun semblant occuper un demi-noeud et durer une journée... Est-ce que ça semble découler d'une utilisation normale du service galaxy ? A ce rythme le cluster risque d'être bloqué une bonne semaine.
Je vous remercie pour votre réponse et ces explications ! Le nombre de fichiers dans mon 'home directory" est à nouveau dans les quotas ; j'avoue ne pas avoir pensé à vérifier après avoir installé des environnements conda.
Par pure curiosité, y aurait-il un outil de monitoring des ressources disponibles sur le cluster, pour ne pas avoir à vous déranger si une situation similaire devait ré-arriver ?
En vous remerciant une fois encore,
Bonne journée !
Nous n'avons pas pris le temps de faire un wrapper (la commande dépends du n° de projet affecté...).
@pdelangen13 En effet, il y a énormément de jobs Galaxy en attente (de qques minutes à pls heures). Nous réfléchissons sur les solutions pour purger cette surcharge.
@Guillaume_Lan-Fongstatus_bars devra faire l'affaire. Mais nous devons encore le faire évoluer pour afficher plus d'indicateurs (exapce /home, nombre de fichier, ...). En attendant, faut nous déranger