Starting JupyterHub Spawn Failed: Timeout

Bonjour,

J'essaie sans succès (attente de quelques minutes suivi d'une volée de "Pending..." et un "Spawn Failed: Timeout" à la fin) de me connecter à la partition GPU via JupyterHub afin de pouvoir faire des tests interactifs (avec des réseaux de neurones convolutifs) avant d'éventuellement lancer les "gros jobs" via SLURM.

J'ai déjà pu (aujourd'hui même) m'y connecter sans problème pour quelques tests mais ayant besoin d'un peu plus de mémoire j'ai tenté de lancer une instance, dans un premier temps avec les paramètres suivants :

Reservation : No reservation
Account : inbreeding_depression_measures
Partition : gpu
CPU(s) : 2
Memory (in GB) : 4
GPU(s) : 2 - 1g.5gb

Puis en tentant d'autres combinaisons de ressources (demander plus ou moins de mémoire CPU, demander d'autres profils GPU,...) sans succès.


A priori, normal que les autres demandes n'aient pas abouties vu l'état d'utilisation des ressources :

sinfo -N -O nodelist,partition:15,Gres:30,GresUsed:50 -p gpu
NODELIST            PARTITION      GRES                          GRES_USED
gpu-node-01         gpu            gpu:1g.5gb:14                 gpu:1g.5gb:2(IDX:0-1)
gpu-node-02         gpu            gpu:3g.20gb:2,gpu:7g.40gb:1   gpu:3g.20gb:2(IDX:0-1),gpu:7g.40gb:1(IDX:2)
gpu-node-03         gpu            gpu:7g.40gb:2                 gpu:7g.40gb:2(IDX:0-1)

Mais l'instance avec le profil 1g.5gb devrait passer sans problèmes, non ?

Mes quotas doivent eux aussi toujours être bons de ce que je peux en voir - 790 Go / 1 000 Go dispo - et 727 473 fichiers / 1 000 000.

Aussi, lancer une instance "tout simple" partition fast, 1 CPU, 1Go de mémoire se fait sans aucun soucis ; il semble que ce soit uniquement les instances sur partition gpu qui posent problème.

__

Si je peux vous fournir d'autres infos qui pourraient aider à trouver la source du problème, n'hésitez pas.

En vous remerciant par avance,
Guillaume

Bonjour,

En effet, vu la disponibilité des profils 1g.5gb, votre job doit partir immédiatement et tourner.

La reservation de ressource dans JupyterHub comme indiqué (2 CPU, 4 GB de mémoire, 2 profil GPU 1g.5gb) fonctionne chez moi (testé ce jour ~16h30).

Pouvez-vous réessayer ?
Pouvez-vous essayer sans passer par JupyterHUb (par exemple: srun -p gpu -A taskforce -n 2 --mem=4G --gres=gpu:1g.5gb:2 hostname) ?

Sinon p'têtre essayer: https://ifb-elixirfr.gitlab.io/cluster/doc/troubleshooting/#jupyterhub-timeout-or-do-not-start

Re-bonjour,

Je viens de ré-essayer et tout à l'air de fonctionner...
Une idée de ce qui a pu causer ce soucis à tout hasard, s'il venait à se reproduire ?

Il me semble être survenu juste après qu'une session ait été fermée pour dépassement de la mémoire allouée, peut-être une sécurité ou quelque chose du genre qui empêche les comptes dont une session a été fermée pour dépassement de mémoire de re-lancer immédiatement une autre session ?

Problème réglé en tout cas, encore désolé du dérangement !

Pas de soucis. Tant mieux si tout fonctionne bien.

Je sais pas trop d'où cela peut venir (problème avec une session Jupyter en cours ou pas bien terminé, problème temporaire de surcharge, ...)

A surveiller si cela se reproduit

1 « J'aime »

Un message a été scindé en un nouveau sujet : Accès au serveur gpu (profil 7g.40gb)

Bonjour,

J'ai un problème similaire, Impossible de me connecter à l'interface jupyterhub, quelque soit les paramètres testés..voilà ce qui m'ait indiqué:

Spawn failed: Timeout

Event log

Server requested

Cluster job running... waiting to connect

Spawn failed: Timeout

Cependant aucun problème pour lancer des commandes etc depuis mon terminal (pas de job jupyter en cours donc je ne peux pas scancel)
Est ce que quelqu'un sait d'où vient ce problème et comment puis je le résoudre?

Merci d'avance,

Bonne journée

Valentin

Bonjour Valentin,

Vous avez atteint le nombre maximum de fichier dans votre home (150 OOO fichiers).
Jupyter au lancement a besoin de créer un fichier mais du coup échoue.

Pour visualiser ce quota: lfs quota -h -p 162337 /shared/home/vhure

Disk quotas for prj 162337 (pid 162337):
     Filesystem    used   quota   limit   grace   files   quota   limit   grace
/shared/home/vhure
                 14.56G    100G    150G       -  150000* 100000  150000       -

C'est dû principalement aux environnements conda (.conda = 100k fichiers, .udocker = 42k fichiers, .local.lib/python3.9 = 19k fichiers)
Je vous invite donc à supprimer des fichiers/env dans votre home ou à déplacer ces données dans vos espaces projets.

Bonjour,

Merci beaucoup le problème est résolu!

Parfait.

Par contre, il va falloir diminuer encore un peu le nombre de fichier (quota à 100k, période de grâce jusqu'à 150k fichiers) !