Starting JupyterHub Spawn Failed: Timeout

Bonjour,

J'essaie sans succès (attente de quelques minutes suivi d'une volée de "Pending..." et un "Spawn Failed: Timeout" à la fin) de me connecter à la partition GPU via JupyterHub afin de pouvoir faire des tests interactifs (avec des réseaux de neurones convolutifs) avant d'éventuellement lancer les "gros jobs" via SLURM.

J'ai déjà pu (aujourd'hui même) m'y connecter sans problème pour quelques tests mais ayant besoin d'un peu plus de mémoire j'ai tenté de lancer une instance, dans un premier temps avec les paramètres suivants :

Reservation : No reservation
Account : inbreeding_depression_measures
Partition : gpu
CPU(s) : 2
Memory (in GB) : 4
GPU(s) : 2 - 1g.5gb

Puis en tentant d'autres combinaisons de ressources (demander plus ou moins de mémoire CPU, demander d'autres profils GPU,...) sans succès.


A priori, normal que les autres demandes n'aient pas abouties vu l'état d'utilisation des ressources :

sinfo -N -O nodelist,partition:15,Gres:30,GresUsed:50 -p gpu
NODELIST            PARTITION      GRES                          GRES_USED
gpu-node-01         gpu            gpu:1g.5gb:14                 gpu:1g.5gb:2(IDX:0-1)
gpu-node-02         gpu            gpu:3g.20gb:2,gpu:7g.40gb:1   gpu:3g.20gb:2(IDX:0-1),gpu:7g.40gb:1(IDX:2)
gpu-node-03         gpu            gpu:7g.40gb:2                 gpu:7g.40gb:2(IDX:0-1)

Mais l'instance avec le profil 1g.5gb devrait passer sans problèmes, non ?

Mes quotas doivent eux aussi toujours être bons de ce que je peux en voir - 790 Go / 1 000 Go dispo - et 727 473 fichiers / 1 000 000.

Aussi, lancer une instance "tout simple" partition fast, 1 CPU, 1Go de mémoire se fait sans aucun soucis ; il semble que ce soit uniquement les instances sur partition gpu qui posent problème.

__

Si je peux vous fournir d'autres infos qui pourraient aider à trouver la source du problème, n'hésitez pas.

En vous remerciant par avance,
Guillaume

Bonjour,

En effet, vu la disponibilité des profils 1g.5gb, votre job doit partir immédiatement et tourner.

La reservation de ressource dans JupyterHub comme indiqué (2 CPU, 4 GB de mémoire, 2 profil GPU 1g.5gb) fonctionne chez moi (testé ce jour ~16h30).

Pouvez-vous réessayer ?
Pouvez-vous essayer sans passer par JupyterHUb (par exemple: srun -p gpu -A taskforce -n 2 --mem=4G --gres=gpu:1g.5gb:2 hostname) ?

Sinon p'têtre essayer: https://ifb-elixirfr.gitlab.io/cluster/doc/troubleshooting/#jupyterhub-timeout-or-do-not-start

Re-bonjour,

Je viens de ré-essayer et tout à l'air de fonctionner...
Une idée de ce qui a pu causer ce soucis à tout hasard, s'il venait à se reproduire ?

Il me semble être survenu juste après qu'une session ait été fermée pour dépassement de la mémoire allouée, peut-être une sécurité ou quelque chose du genre qui empêche les comptes dont une session a été fermée pour dépassement de mémoire de re-lancer immédiatement une autre session ?

Problème réglé en tout cas, encore désolé du dérangement !

Pas de soucis. Tant mieux si tout fonctionne bien.

Je sais pas trop d'où cela peut venir (problème avec une session Jupyter en cours ou pas bien terminé, problème temporaire de surcharge, ...)

A surveiller si cela se reproduit

1 « J'aime »

Un message a été scindé en un nouveau sujet : Accès au serveur gpu (profil 7g.40gb)