Bonjour,
J'essaie sans succès (attente de quelques minutes suivi d'une volée de "Pending..." et un "Spawn Failed: Timeout" à la fin) de me connecter à la partition GPU via JupyterHub afin de pouvoir faire des tests interactifs (avec des réseaux de neurones convolutifs) avant d'éventuellement lancer les "gros jobs" via SLURM.
J'ai déjà pu (aujourd'hui même) m'y connecter sans problème pour quelques tests mais ayant besoin d'un peu plus de mémoire j'ai tenté de lancer une instance, dans un premier temps avec les paramètres suivants :
Reservation : No reservation
Account : inbreeding_depression_measures
Partition : gpu
CPU(s) : 2
Memory (in GB) : 4
GPU(s) : 2 - 1g.5gb
Puis en tentant d'autres combinaisons de ressources (demander plus ou moins de mémoire CPU, demander d'autres profils GPU,...) sans succès.
A priori, normal que les autres demandes n'aient pas abouties vu l'état d'utilisation des ressources :
sinfo -N -O nodelist,partition:15,Gres:30,GresUsed:50 -p gpu
NODELIST PARTITION GRES GRES_USED
gpu-node-01 gpu gpu:1g.5gb:14 gpu:1g.5gb:2(IDX:0-1)
gpu-node-02 gpu gpu:3g.20gb:2,gpu:7g.40gb:1 gpu:3g.20gb:2(IDX:0-1),gpu:7g.40gb:1(IDX:2)
gpu-node-03 gpu gpu:7g.40gb:2 gpu:7g.40gb:2(IDX:0-1)
Mais l'instance avec le profil 1g.5gb devrait passer sans problèmes, non ?
Mes quotas doivent eux aussi toujours être bons de ce que je peux en voir - 790 Go / 1 000 Go dispo - et 727 473 fichiers / 1 000 000.
Aussi, lancer une instance "tout simple" partition fast, 1 CPU, 1Go de mémoire se fait sans aucun soucis ; il semble que ce soit uniquement les instances sur partition gpu qui posent problème.
__
Si je peux vous fournir d'autres infos qui pourraient aider à trouver la source du problème, n'hésitez pas.
En vous remerciant par avance,
Guillaume