Je voudrais compiler (build) un package conda (rsat-core) sur le cluster.
Ce processus prend pas mal de temps, et je suppose que je ne peux pas le lancer sur le noeud clust-slurm-client. Je voudrais le suivre en temps réel est-ce que je peux utiliser sinteractive ?
Ou bien y a-t-il une autre solution? Lancer srunsur chaque commande ?
(base) [jvanhelden@clust-slurm-client ~]$ srun conda install anaconda conda-build anaconda-client
srun: job 21466733 queued and waiting for resources
srun: job 21466733 has been allocated resources
Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Solving environment: ...working... failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): ...working... slurmstepd: error: Detected 1 oom-kill event(s) in step 21466733.0 cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.
srun: error: cpu-node-11: task 0: Out Of Memory
Est-ce que quelqu'un d'expérimenté pourrait m'aiguiller ?
(base) [jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... failed
NoSpaceLeftError: No space left on devices.
Pourtant le disque est loin d'être plein
(base) [jvanhelden@clust-slurm-client ~]$ df -H .
Filesystem Size Used Avail Use% Mounted on
192.168.16.184@tcp:192.168.16.186@tcp:/ifbstor1 2.3P 320T 1.9P 15% /shared/ifbstor1
et je viens de dégager quelques dizaines de Go de mon dossier $HOME.
Il est vrai que mon dossier perso occupe une place démesurée (avec des fichiers qui datent d'avant les espaces-projets partagés).
J'essaie de faire de la place dans mon espace perso mais j'ai un autre problème: l'effacement ne fonctionne pas (voir ticket Effacement de fichiers/dossiers)
J'ai demandé un espace-projet partagé où je transférerai un gros projet RNA-seq (et j'en profiterai pour faire le point et déposer ces données à l'ENA)
Bon, le problème n'est apparemment pas (uniquement) lié à l'espace disque que j'occupe.
Je relance la commande à 5 secondes d'intervalle, la première fois il dit qu'il n'y a pas de place sur le disque, et la seconde il commence le job
[jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... failed
NoSpaceLeftError: No space left on devices.
srun: error: cpu-node-15: task 0: Exited with exit code 1
[jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... done
D'autant plus que l'installation conda s'est interrompue un peu plus tard
[jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Solving environment: ...working... failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): ...working... failed
NoSpaceLeftError: No space left on devices.
srun: error: cpu-node-15: task 0: Exited with exit code 1
Je suppose qu'il rencontre le même type de coupure sporadique de l'accès au disque, et au moment où elle se produit conda s'arrête en indiquant qu'il n'y a plus de place.