J'ai un job en cours depuis 2 jours et je ne sais pas si il tourne en rond ou si il traite réellement quelque chose (il ne m'affiche rien de nouveau dans la sortie standard).
C'est pourquoi j'aurai voulu savoir si il existait un moyen de suivre en temps réel un job sur un node à la manière de htop avec la consommation en RAM et CPU ? j'ai recherché dans la documentation de slurm mais je n'arrive qu'à afficher les paramètres généraux de mon job / nœud.
Sauriez vous si il existe un moyen d'obtenir l'information que je recherche ?
Je vous remercie d'avance et vous souhaite une bonne journée.
Utile aussi lorsque les jobs sont terminées (entre autre), on peut utiliser les sacct ou seff pour visualiser les ressources utilisés par son job:
sacct j <jobid>
seff <jobid>
Suivre son programme au travers du fichier de sortie du job
Les fichiers de sorties slurm (sortie standard et erreur) sont écrit/consultable en "direct". Par exemple:
tail -f <slurm-jobid.out>
Se connecter au serveur, pour visualiser (via htop ou autre)
Suivant la configuration du site, il est parfois possible de se connecter au noeud de calcul pour visualiser l'usage:
squeue -l -u
# On sait alors sur quel serveur (cp-node-xx) tourne notre job
# On peut se connecter sur ce dernier:
ssh $USER@cpu-node-xx
#Et visualiser la charge (par exemple via htop):
htop
# Pour limiter sur ses process:
htop -u $USER
Si vous avez d'autre trucs et astuces, n'hésitez-pas à nous en faire part également.
Merci beaucoup pour toutes ces commandes ! La dernière avec htop a marché comme je voulais et mon job n'est pas planté (juste TRÈS long ). Je ne savais pas qu'il était possible de se connecter en ssh sur un nœud particulier, je le mets dans un coin de ma mémoire pour la suite.