Jobs vont atteindre le temps limite

HeloiseMuller · Juillet 27, 2022, 8:38

Bonjour,

J'ai lancé des RepeatMasker sur plusieurs génomes avec la partition long. Cependant, certains sont plus long que prévu et ne seront pas fini en 30 jours... Je me demandais donc si vous avez la possibilité d'augmenter le temps limite de certains jobs en cours ? Si ce n'est pas possible, il va falloir que je relance tout du début. Est-ce que j'ai la possibilité de demander plus que 30 jours avec l'option --time, ou je serais bloquée à 30 jours de toute façon ?

Au cas où vous puissiez augmenter le temps limite de certains job, je mets ci dessous le temps que j'ai estimé pour les jobs problématiques, temps basés sur le pourcentage de batch fait par RepeatMasker. Pour certains jobs il ne manque que 1 ou 2 jours, mais pour d'autres, 2 en particulier, il manque vraiment beaucoup, je ne sais pas si vous serez en mesure de faire quoi que ce soit pour ceux là.

       JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)  TotalEstimatedTime(days)
      23720372      long command_  hmuller  R 12-15:23:08      1 cpu-node-43    38
      23720261      long command_  hmuller  R 17-17:11:38      1 cpu-node-25    31 
      23637078      long command_  hmuller  R 24-17:17:32      1 cpu-node-19    49
      23637074      long command_  hmuller  R 25-17:09:34      1 cpu-node-37    37
      23637073      long command_  hmuller  R 25-17:41:29      1 cpu-node-15    36
      23637072      long command_  hmuller  R 25-18:08:20      1 cpu-node-47    152
      23637071      long command_  hmuller  R 25-22:17:03      1 cpu-node-13    97
      23720065      long command_  hmuller  R 23-00:10:19      1 cpu-node-34    32

Bonne journée,

Héloïse Muller

dbenaben · Juillet 27, 2022, 10:00

Bonjour Héloïse,

Malheureusement il n'est pas possible de demander plus de 30 jours sur les noeuds standards de l'IFB Core Cluster: SLURM at IFB Core - IFB Core Cluster Documentation
De même, nous ne pouvons pas nous permettre d'augmenter le "time" des jobs en cours.

Par contre, en regardant de plus près vos jobs, je note une anomalie.

Vous avez demandé 15 CPU pour vos jobs (-n 15) et vous avez bien lancé votre commande pour utiliser 15 CPU (RepeatMasker [...] -pa 15 [...]).
Mais quand je regarde en détail vos jobs an train de tourner (par exemple en vous connectant sur le nœud de calcul et en observant le traitement via htop: ssh cpu-node-47 puis htop -u hmuller), j'observe que la commande lance bien 15 process "RepeatMasker" mais que pour chacun de ces process, le programme lance 4 threads... Ce qui au final est complètement contre-productif puisque l'on dispose de 15 "cœurs" mais le job va utiliser "15 process * 4 threads = 60 cœurs".
En effet, les 15 process "RepeatMasker" lance la commande rmblastn [...] -num_threads 4 [...]

Je pense donc qu'en demandant plus de CPU pour vos jobs, vous devriez gagner largement en performance / temps d'éxécution.
Peut-être tenter de lancer avec RepeatMasker [...] -pa 13 [...] et #SBATCH -n 52 (il n'y a pas de noeuds standards disposant de 60 cœurs). Ou plus simplement en réservant une machine complète avec --exclusive (en utilisant 52 cœurs vous demander la quasi-totalité des cœurs disponible, alors autant utiliser aussi toute la machine et toute la mémoire disponible, soit 250G).

Tenez-nous au courant !

HeloiseMuller · Juillet 27, 2022, 1:17

Merci pour votre réponse rapide. Je vais essayer de relancer le jobs problématiques en suivant vos conseils.