OOM sur des jobs n'en necessitant pas

Bonjour,

Je rencontre un problème avec slurm et la mémoire.
Je lance une pipeline nextflow avec la commande srun nextflow run -resume main.nf -profile ifb.
Il semble bien fonctionner vu qu'il crée des sbatch et alloue de la mémoire en fonction des labels. La pipeline s'exécute bien.

Mais quand je la relance une ou deux fois après des modifications, ou que je lance un job qui ne nécessite pas du tout de mémoire (srun rm -rf ...) je reçois ce message:

slurmstepd-cpu-node-54: error: Detected 1 oom_kill event in StepId=43585756.0. Some of the step tasks have been OOM Killed.
srun: error: cpu-node-54: task 0: Out Of Memory

Quand je nettoie mon dossier work de nextflow cela semble régler le problème.
Ce n'est pas le stockage en tout cas vu qu'il m'en reste assez.

Auriez-vous une idée de ce qui peut causer le problème ?

Bonne journée à vous

Bonjour,

Il s'agit bien d'un Out Of Memory (manque de mémoire alloué).
Si vous ne spécifier pas de mémoire dans votre commande ou script, vous aurez par défaut 2Go de mémoire allouée (ce qui est le cas pour vos jobs "OOM").
Toute commande nécessite de la mémoire (i.e. un job qui ne "nécessite pas du tout de mémoire" n'existe pas).
Pour un simple "rm", c'est étonnant que cela ne suffise pas mais c'est pas impossible.

Je vous invite donc simplement à augmenter la mémoire alloué (peut-être 4Go ou plus au lieu des 2Go par défaut).

Si ca coince toujours, revenez vers nous en nous précisant la ligne de commande complète ou le script du job.

1 « J'aime »