Slurm: erreur "module: not found"

Bonjour,

J'ai lancé une boucle for et ai utilisé la commande --wrap pour lancer près d'une centaine de jobs indépendants en même temps. Dans la commande wrap, j'ai chargé le module bwa ("module load bwa"). Les 7 premiers jobs ont bien chargé le module bwa mais les autres jobs n'ont visiblement pas trouvé la commande "module" car ils m'ont retourné dans les logs les messages suivant "module: not found" et "bwa: not found". Auriez-vous une explication ?

Bonne fin de journée,

Bonjour @Pierre-Michel, il y a eu un souci avec certains noeuds de calcul, pouvez-vous ré-essayer ? Est-ce que vous avez utilisé la fonctionnalité job array de slurm pour lancer ces jobs ?

Bonjour,
merci pour votre retour. J'ai réessayer avec moins de cpu par tâche (10 au lieu de 20) et moins de mémoire (20 au lieu de 40G) et ça a fonctionné. Peut-être que c'était juste lié aux noeuds du cluster ou le changement des paramètres de mémoire et de calcul ont-ils eu un impact bénéfique ?
Je n'ai pas utilisé la fonctionnalité job array. Ma commande ressemblait à ceci :
sbatch -J ${mapping} --partition=fast --cpus-per-task=20 --mem=40g --wrap "commande"

Ca devait être effectivement lié à l'état de certains noeuds hier alors désolé du souci, slurm a du envoyer certains de vos jobs sur des noeuds en mauvais état. Vous pouvez demander a faire tourner un job sur un noeud spécifique avec le flag sbatch --nodelist=xxxx si jamais vous voyez qu'il y a un problème avec un ou plusieurs noeuds.

Enfin l'important c'est que ca fonctionne maintenant :wink:

Bonjour,
Merci pour votre diagnostic et du conseil de spécifier les noeuds.
Bonne journée

1 « J'aime »