Bonjour,
Je travaille sur le projet tonga_mag.
Pour un workflow snakemake j'ai une règle nommé megahit qui nécessite un nombre de ressources importants, les jobs se lançaient sans problème jusqu'au 20 décembre environ (j'étais à 4 jobs max en simultanés avec 375 Go et 75 CPUs par jobs pour ne pas dépasser la limite de 1500Go et 300 CPU par utilisateur). Depuis, quand je relançais le workflow avec cette règle, sur les 4 qui se lançaient, 3 partaient en erreur sans explication précise dans les logs et 1 se lançait correctement, aujourd'hui j'ai retenté de lancer et aucun ne passe. L'erreur arrive très rapidement au bout d'une 10aine de secondes. J'ai tenté de relancer avec moins de ressources par jobs (300Go et 70CPU) mais les jobs plantent toujours.
JobID State Elapsed TimeEff CPUEff MemEff
43168642 FAILED 00:00:12 0.0% 0.7% 0.0%
Un job qui a fonctionné le 21 décembre :
JobID State Elapsed TimeEff CPUEff MemEff
43148182 COMPLETED 2-19:05:33 39.9% 65.9% 58.2%
Auriez vous des informations supplémentaires me permettant de savoir pourquoi mes jobs plantent tous ? Est ce que le problème peut venir de l'espace disponible dans le projet, malgré le fait qu'il me reste 5To de disponible ? Peut être le nombre de fichier ? Je n'ai pas réussi à avoir l'information pour le projet.
Merci !
Bonjour,
Je ne vois pas d'anomalie, ni plus d'infos, de mon côté.
Pourriez-vous nous partager les logs/scripts/commandes (ou nous préciser où les trouver) ?
Oui pas de soucis.
Vous pouvez trouver les logs ici : /shared/projects/tonga_mag/soft/magneto_tonga_G3/logs/cluster_logs/megahit
il y en a un certains nombre dans le répertoire, celui ci correspond à un job qui est passé : megahit-assembly=single_assembly,src=TONSD01PF15MTG3-43148183.err
et celui ci le job est parti en erreur : megahit-assembly=single_assembly,src=TONSD04PF15MTG3-43222970.err
Le script de la règle megahit ici : /shared/projects/tonga_mag/soft/magneto/magneto/rules/assembly.smk
la règle megahit est à la ligne 645
La commande que je lance est la suivante : magneto run assembly --rerun-incomplete --profile config/slurm/ --config target=single_assembly
et la commande sbtach qui lance les jobs dans ce fichier : /shared/projects/tonga_mag/soft/magneto_tonga_G3/config/slurm/config.yaml
Je n'ai rien modifié à ce niveau là entre le moment où tout les jobs passaient et où certains jobs ont commencé à planter.
Pourriez-vous relancer vos jobs en spécifiant l'option suivante à Slurm: --exclude=cpu-node-[105-110]
?
Par exemple: sbatch --exclude=cpu-node-[105-110] slurm-test.sh
Je sais pas encore pourquoi mais, dans votre cas, j'ai l'impression que ce sont ces noeuds qui causent l'erreur.
Les jobs se sont effectivement bien lancés avec cette option.
@hugo-lefeuvre Il y avait un problème plus général (lié à module
)
Pourriez-vous retester sur un des noeuds en question (option -w cpu-node-[105-110]
) pour vérifier que l'erreur a bien disparu ?
J'ai des jobs actuellement en cours qui prennent un certains temps (plusieurs jours) et utilisent toutes les ressources à ma disposition, est ce que je peux tester d'une autre manière ?
Ca presse pas. Si vous pouvez vérifier à l'occasion (une fois vos jobs terminés) ce serait nickel.
Pas de soucis je ferais ça
J'ai relancé avec -w cpu-node-[105-110]
et je n'ai pas eu de problèmes (tout les jobs ont été lancés sur le 107).
Ca marche. Merci pour le test et votre retour !