Impossibilité de lancer JupyterLab

Bonjour,

Depuis hier, je ne parviens plus à lancer JupyterLab. J'ai fait plusieurs tentatives en vain.

Je demande pourtant des ressources raisonnables sur un account valable :

Mais au bout de quelque temps, j'obtiens le message suivant :

J'avais lu dans un précédent fil de discussion que supprimer ~/.local/share/jupyter/ pouvait aider. C'est ce que j'ai fait, sans résultat probant.

Curieusement cela semble remarcher. Par exemple avec le job 33338546 sur le noeud cpu-node-17.

Pourriez-vous à tout hasard vérifier l'état de santé du noeud cpu-node-31 ?

D'avance merci.

Pierre

Bonjour,
Je rencontre le même problème de connexion impossible à JupyterLab, avec un message d'erreur un peu différent :"Spawn failed : Timeout".
J'ai également fait le test sur des projets distincts, sur la partition fast et long, avec des ressources minimales ou plus importantes, j'ai aussi déplacé le dossier ~/.local/share/jupyter/ sans succès.
Les jobs correspondants sont tous en statut "FAILED", mais sur des nodes distincts (cpu-node-67, cpu-node-31, cpu-node-35, cpu-node-17).
Merci de vos lumières :slight_smile:
Pascal

@team.ifbcorecluster une idée du souci ? Est-ce lié à certains noeuds en particulier ?

Bonjour,

Je pense que c'est lié à une charge importante ponctuelle sur le cluster.
JupyterHub patiente 120 secondes jusqu'à ce que le job qu'il a soumis au cluster démarre. Si le cluster est très chargé et n'a pas suffisamment de ressources disponibles pour démarrer le job alors l'erreur que vous rencontrez va se produire.

Nous allons prochainement renforcer les ressources du cluster (+4000 cœurs et +32To de RAM) et nous allons également tenter de réserver des ressources pour les usages interactifs comme JupyterLab.

Julien

Bonjour et merci pour la réponse rapide !
Ce qui me chiffonne est que dans mes tests, dès que je tente de démarrer une session JLab, un job est quasi immédiatement en statut Running via sacct, puis en 4-6 secondes passe en Failed. Est-ce que ça suggère qu'il y a dans ces cas là des slots dispo (à l'instant par ex j'ai demandé 1 cpu et 1Go), que le job est lancé mais pour une raison inconnue le job crash très vite ?
Aussi serait-il possible de réduire le temps de 120 secondes dans l'interface web JLab avant d'avoir le message d'erreur, idéalement pas beaucoup plus longtemps que le job qui fail dans les secondes qui suivent la soumission (théoriquement faisable j'imagine, mais bien sûr à voir si c'est implémentable en pratique).

Bonjour Pascal,

Si le job associé à la session JupyterLab plante alors il s'agit d'un autre problème...
Je constate effectivement que pour vous le job démarre puis crash après quelques secondes.
J'en déduis que le process JupyterLab lancé par JupyterHub plante quelques secondes après avoir démarré...

Est-ce que vous faites un usage particulier de JupyterLab (utilisation de kernel perso, autres paramétrages) ?
En attendant, je vais essayer de tracer l'erreur, je reviens vers vous dès que j'ai trouvé quelques choses.

Julien

J'ai trouvé.

Vous avez atteint de le quota d'inodes (100000) sur votre home directory.
SLURM ne parvient pas a créer son fichier de sortie en démarrant la session JupyterLab et le job crash immédiatement.

Il va falloir réduire le nombre de fichier dans votre home pour que SLURM puisse à nouveau fonctionner correctement.

Pour consulter le quota de votre homedir :

lfs quota -h -p 160909 /shared/home/phingamp

Julien

1 « J'aime »

Merci Julien !
Je confirme que le problème s'est résolu dès lors que mon home est repassé sous le quota en terme de nombre de fichiers.
Comme j'ai eu du mal à comprendre comment diable je pouvais avoir "138202" fichiers dans mon home dans lequel je ne stocke pourtant pas grand chose (700Mo dans 2176 fichiers perso), au cas où ça arrive à d'autres, voici où j'ai fini par mettre la main sur plus de 130000 fichiers planqués installés à mon insu par je ne sais quelle manip j'ai dû faire par le passé (30000 à 50000 fichiers par répertoire):

.local/share/jupyter
.julia
.cache/yarn/

Donc réglé par un triple rm -rf qui a pris des plombes :joy:

J'oubliais de dire que c'est une super nouvelle :pray:

C'est prévu à quelle échéance ?

Fin juin, début juillet !

1 « J'aime »

D'accord, merci pour ta réponse. Mais comment dans ce cas expliquer le fait que le message d'erreur mentionne un noeud en particulier (dans la copie d'écran cpu-node-31) si le job jupyterlab n'a pas eu le temps partir ?

:tada: :pray:

@julien un des usagers du projet est victime du même symptôme (impossibilité de démarrer une session JupyterLab, cf capture d'écran ci-dessous), mais dans son cas n'a pas dépassé ses quotas:

lfs quota -h -p `id -u $USER` /shared/ifbstor1
Disk quotas for prj 164262 (pid 164262):
     Filesystem    used   quota   limit   grace   files   quota   limit   grace
/shared/ifbstor1
                 937.7M    100G    150G       -   55446  100000  150000       -

Ses tentatives de lancements se traduisent visiblement systématiquement par un statut "CANCELLED" au bout de 5 minutes :

$ sacct --format=JobID%20,JobName%18,Partition,ReqCPUS,ReqMem,Timelimit,State,ExitCode,Start,elapsed,CPUTime,MaxRSS -S 2023-05-01
               JobID            JobName  Partition  ReqCPUS     ReqMem  Timelimit      State ExitCode               Start    Elapsed    CPUTime     MaxRSS
-------------------- ------------------ ---------- -------- ---------- ---------- ---------- -------- ------------------- ---------- ---------- ----------
            33194151            jupyter       fast        1        1Gn   12:00:00    TIMEOUT      0:0 2023-05-03T08:41:57   12:00:06   12:00:06
      33194151.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-03T08:41:57   12:00:08   12:00:08      7844K
          33194151.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-03T08:41:58   12:00:13   12:00:13    372416K
            33313581            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T07:47:16   00:04:59   00:04:59
      33313581.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T07:47:16   00:05:00   00:05:00      7848K
          33313581.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T07:47:17   00:05:01   00:05:01    102580K
            33313602            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T07:53:48   00:05:00   00:05:00
      33313602.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T07:53:48   00:05:01   00:05:01      7848K
          33313602.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T07:53:49   00:05:02   00:05:02    101184K
            33313957            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T08:01:57   00:04:59   00:04:59
      33313957.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T08:01:57   00:05:00   00:05:00      7848K
          33313957.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T08:01:59   00:05:00   00:05:00    103828K
            33316150            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T08:11:08   00:05:00   00:05:00
      33316150.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T08:11:08   00:05:01   00:05:01      7848K
          33316150.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T08:11:09   00:05:02   00:05:02    101696K
            33318031            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T08:19:06   00:05:00   00:05:00
      33318031.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T08:19:06   00:05:02   00:05:02      7844K
          33318031.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T08:19:07   00:05:03   00:05:03    103940K
            33318380            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T08:26:48   00:04:59   00:04:59
      33318380.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T08:26:48   00:05:00   00:05:00      7848K
          33318380.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T08:26:50   00:05:00   00:05:00    101284K
            33318445            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T08:33:40   00:04:59   00:04:59
      33318445.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T08:33:40   00:05:00   00:05:00      7848K
          33318445.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T08:33:40   00:05:02   00:05:02    102424K
            33319058            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-09T10:11:24   00:04:59   00:04:59
      33319058.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-09T10:11:24   00:05:00   00:05:00      7852K
          33319058.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-09T10:11:25   00:05:02   00:05:02    103036K
            33339560            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-10T08:24:48   00:05:00   00:05:00
      33339560.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-10T08:24:48   00:05:01   00:05:01      7856K
          33339560.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-10T08:24:50   00:05:07   00:05:07    102996K
            33339696            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-10T08:30:23   00:05:00   00:05:00
      33339696.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-10T08:30:23   00:05:01   00:05:01      7852K
          33339696.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-10T08:30:25   00:05:07   00:05:07    102812K
            33340417            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-10T08:52:52   00:05:00   00:05:00
      33340417.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-10T08:52:52   00:05:02   00:05:02      7856K
          33340417.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-10T08:52:54   00:05:07   00:05:07    103216K
            33341126            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-10T09:45:25   00:04:59   00:04:59
      33341126.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-10T09:45:25   00:05:00   00:05:00      7848K
          33341126.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-10T09:45:26   00:05:01   00:05:01    101868K
            33344327            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-10T11:26:34   00:04:59   00:04:59
      33344327.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-10T11:26:34   00:05:01   00:05:01      7844K
          33344327.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-10T11:26:35   00:05:02   00:05:02    101368K
            33418514            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-15T08:01:16   00:04:59   00:04:59
      33418514.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-15T08:01:16   00:05:00   00:05:00      7848K
          33418514.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-15T08:01:17   00:05:01   00:05:01    101312K
            33418965            jupyter       fast        1        1Gn   12:00:00 CANCELLED+      0:0 2023-05-15T08:56:37   00:04:59   00:04:59
      33418965.batch              batch                   1        1Gn             CANCELLED     0:15 2023-05-15T08:56:37   00:05:08   00:05:08      7828K
          33418965.0 batchspawner-sing+                   1        1Gn             COMPLETED      0:0 2023-05-15T08:56:38   00:05:09   00:05:09    101420K

Votre aide est la bienvenue !

Pour info, @julien a résolu ce dernier problème en écartant deux répertoires cachés dans le "home" de l'utilisateur qui interféraient avec JupyterLab: .local .ipython (renommés ou supprimés selon votre degré de confiance que vous n'en aurez plus besoin).

1 « J'aime »