Est il possible de suivre un job en temps réel?

Bonjour,

J'ai un job en cours depuis 2 jours et je ne sais pas si il tourne en rond ou si il traite réellement quelque chose (il ne m'affiche rien de nouveau dans la sortie standard).

C'est pourquoi j'aurai voulu savoir si il existait un moyen de suivre en temps réel un job sur un node à la manière de htop avec la consommation en RAM et CPU ? j'ai recherché dans la documentation de slurm mais je n'arrive qu'à afficher les paramètres généraux de mon job / nœud.

Sauriez vous si il existe un moyen d'obtenir l'information que je recherche ?

Je vous remercie d'avance et vous souhaite une bonne journée.

Théophile B.

Bonjour Théophile,

Plusieurs possibilités:

  • Suivre l'état via les commandes slurm
    Slurm user guide - IFB Core Cluster Documentation

    squeue -l -u $USER
    
    scontrol show job <jobid>
    

    Utile aussi lorsque les jobs sont terminées (entre autre), on peut utiliser les sacct ou seff pour visualiser les ressources utilisés par son job:

    sacct j <jobid>
    seff <jobid>
    
  • Suivre son programme au travers du fichier de sortie du job
    Les fichiers de sorties slurm (sortie standard et erreur) sont écrit/consultable en "direct". Par exemple:

    tail -f <slurm-jobid.out>
    
  • Se connecter au serveur, pour visualiser (via htop ou autre)
    Suivant la configuration du site, il est parfois possible de se connecter au noeud de calcul pour visualiser l'usage:

    squeue -l -u 
    # On sait alors sur quel serveur (cp-node-xx) tourne notre job
    # On peut se connecter sur ce dernier:
    ssh $USER@cpu-node-xx
    #Et visualiser la charge (par exemple via htop):
    htop
    # Pour limiter sur ses process:
    htop -u $USER
    

Si vous avez d'autre trucs et astuces, n'hésitez-pas à nous en faire part également.

Bonne journée

Merci beaucoup pour toutes ces commandes ! La dernière avec htop a marché comme je voulais et mon job n'est pas planté (juste TRÈS long :sweat_smile: ). Je ne savais pas qu'il était possible de se connecter en ssh sur un nœud particulier, je le mets dans un coin de ma mémoire pour la suite.

Encore merci et bonne journée

Théophile

1 « J'aime »