Je pense que j'ai peut-être un problème avec l'espace alloué à mon compte (dils_oedulis). J'obtiens toujours cette erreur lorsque j'essaie d'exécuter un travail :
slurmstepd-cpu-node-2: error: Detected 1 oom_kill event in StepId=43107790.batch. Some of the step tasks have been OOM Killed.
J'ai consulté de nombreux messages dans ce forum communautaire et le conseil semble être d'augmenter la mémoire demandée pour le travail. J'ai fait cela plusieurs fois, même jusqu'à 500G, mais le travail ne s'exécute toujours pas. Cela me surprend également qu'il faille autant de mémoire, et c'est inquiétant parce que j'ai besoin d'exécuter le job sur un fichier plus gros une fois que je l'aurai fait fonctionner. Je vois que mon projet a très peu de mémoire restante, peut-être est-ce la cause du problème ?
Merci beaucoup pour votre aide et je m'excuse si j'ai oublié quelque chose sur un forum quelque part ! Je m'excuse également pour les fautes de français.
En regardant un peu plus, j'ai l'impression que vous lancez un workflow avec snakemake.
Lorsque vous lancez ce worflow, vous demandez en effet bcp de mémoire (500G).
Ce workflow va alors lancer un autre job, qui lui aura 40G de mémoire et va échouer avec l'erreur "Out Of Memory (OOM)".
Le workflow lancé précédemment s'arrête alors ("Failed").
Il faut donc augmenter la mémoire du job lancé par snakemake et non la mémoire du job "snakemake".
Tout au mois, j'ai l'impression que c'est ça.
Vous pouvez nous donner les scripts en questions si ça ne fonctionne toujours pas.