Un problème avec l'espace alloué à mon compte?

Bonjour,

Je pense que j'ai peut-être un problème avec l'espace alloué à mon compte (dils_oedulis). J'obtiens toujours cette erreur lorsque j'essaie d'exécuter un travail :

sbatch --partition=long --time=72:00:00 --job-name="oys-dils" --mem=500G --wrap="./DILS_2pop.sh lila_configtest.yaml"

slurmstepd-cpu-node-2: error: Detected 1 oom_kill event in StepId=43107790.batch. Some of the step tasks have been OOM Killed.

J'ai consulté de nombreux messages dans ce forum communautaire et le conseil semble être d'augmenter la mémoire demandée pour le travail. J'ai fait cela plusieurs fois, même jusqu'à 500G, mais le travail ne s'exécute toujours pas. Cela me surprend également qu'il faille autant de mémoire, et c'est inquiétant parce que j'ai besoin d'exécuter le job sur un fichier plus gros une fois que je l'aurai fait fonctionner. Je vois que mon projet a très peu de mémoire restante, peut-être est-ce la cause du problème ?

Merci beaucoup pour votre aide et je m'excuse si j'ai oublié quelque chose sur un forum quelque part ! Je m'excuse également pour les fautes de français.

Bonjour Lila,

Si je regarde vos derniers jobs, on voit en effet que des jobs sont tués par manque de mémoire:

$ sacct -S 2024-12-17 -o JobID%15,JobName%30,Account%20,Partition,ReqMem,MaxRSS,NTasks,AllocCPUS,Timelimit,Elapsed,State%20,ExitCode -u lilacn
          JobID                        JobName              Account  Partition     ReqMem     MaxRSS   NTasks  AllocCPUS  Timelimit    Elapsed                State ExitCode 
--------------- ------------------------------ -------------------- ---------- ---------- ---------- -------- ---------- ---------- ---------- -------------------- -------- 
       43107223                       oys-dils         dils_oedulis       long       500G                              1 3-00:00:00   00:02:39               FAILED      1:0 
 43107223.batch                          batch         dils_oedulis                           37684K        1          1              00:02:39               FAILED      1:0 
       43107226  snakejob.fasta2ABC_2pops.5.sh         dils_oedulis       fast     40000M                              2   02:00:00   00:02:04        OUT_OF_MEMORY    0:125 
 43107226.batch                          batch         dils_oedulis                        27709076K        1          2              00:02:04        OUT_OF_MEMORY    0:125 
       43107788                       oys-dils         dils_oedulis       long       500G                              1 3-00:00:00   00:03:10               FAILED      1:0 
 43107788.batch                          batch         dils_oedulis                           37688K        1          1              00:03:10               FAILED      1:0 
       43107790  snakejob.fasta2ABC_2pops.5.sh         dils_oedulis       fast     40000M                              2   02:00:00   00:02:44        OUT_OF_MEMORY    0:125 
 43107790.batch                          batch         dils_oedulis                        31233788K        1          2              00:02:44        OUT_OF_MEMORY    0:125

En regardant un peu plus, j'ai l'impression que vous lancez un workflow avec snakemake.
Lorsque vous lancez ce worflow, vous demandez en effet bcp de mémoire (500G).
Ce workflow va alors lancer un autre job, qui lui aura 40G de mémoire et va échouer avec l'erreur "Out Of Memory (OOM)".
Le workflow lancé précédemment s'arrête alors ("Failed").
Il faut donc augmenter la mémoire du job lancé par snakemake et non la mémoire du job "snakemake".

Tout au mois, j'ai l'impression que c'est ça.
Vous pouvez nous donner les scripts en questions si ça ne fonctionne toujours pas.

1 « J'aime »