Erreur répétée lors du lancement de jobs sur JupyterHub

Bonjour,

Depuis quelques jours je rencontre cette erreur lorsque j'essaye de lancer un job depuis le terminal de JupyterHub.

srun: Job 15410595 step creation temporarily disabled, retrying

Après l'affichage de ce message le job semble ne jamais s'arrêter et ne me rend pas la main.

Il semble que l'ID du job cité dans le message d'erreur corresponde à jupyter.

             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
          15410595      fast  jupyter djarrige  R    3:22:41      1 cpu-node-12

J'ai essayé de relancer les même jobs depuis un terminal local relié en ssh avec le cluster de l'IFB et ils ont pu fonctionner sans problème.

Le problème vient-il de mon côté (je suis en formation et suis utilisatrice du core cluster de l'IFB depuis peu), ou bien de jupyter hub ou de SLURM ?

Merci par avance pour votre aide !

Bonjour Domitille,

Lorsque vous utilisez JupyterHub, un serveur JupyterLab est lancé pour vous sur le cluster à l'aide de SLURM. Ainsi, votre serveur correspond à l'execution d'un job step (srun) au sein d'un job SLURM.
Lorsque vous essayez de lancer srun directement depuis le terminal Unix de JupyterLab, vous exécutez ce srun dans le cadre de la réservation du job créé pour JupyterLab. Ce srun ne pourra pas s'executer car il y a déjà un job step en cours pour le serveur Jupyter. C'est pourquoi il est temporairement impossible de créer un job step.

Pour utiliser srun depuis le terminal Unix de JupyterLab, il vous faudra d'abord créer une réservation de ressources à l'aide de la commande salloc. Vous pourrez alors utilisez srun en mode interactif dans le cadre de cette nouvelle réservation.

A la fin de votre session de travail interactif, n'oubliez pas de libérer les ressources réservés à l'aide de la commande exit ou Ctrl+D.

L'utilisation de la réservation de ressources avec salloc est la démarche que nous vous recommandons, y compris depuis le login node SSH.

Bonne journée,

Julien

2 J'aime

Bonjour Julien,

Merci beaucoup pour votre réponse détaillée !

Je comprends beaucoup mieux maintenant pourquoi cela fonctionnait depuis un terminal local et pas depuis JupyterLab. J'allouerai bien les ressources à l'avenir avant de passer en mode interactif !

Bonne journée,

Domitille