How to run conda packaging on the cluster

Bonjour

Je voudrais compiler (build) un package conda (rsat-core) sur le cluster.
Ce processus prend pas mal de temps, et je suppose que je ne peux pas le lancer sur le noeud clust-slurm-client. Je voudrais le suivre en temps réel est-ce que je peux utiliser sinteractive ?

Ou bien y a-t-il une autre solution? Lancer srunsur chaque commande ?

Merci

Jacques

Avec srun j'ai une erreur

(base) [jvanhelden@clust-slurm-client ~]$ srun conda install anaconda conda-build anaconda-client
srun: job 21466733 queued and waiting for resources
srun: job 21466733 has been allocated resources
Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Solving environment: ...working... failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): ...working... slurmstepd: error: Detected 1 oom-kill event(s) in step 21466733.0 cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.
srun: error: cpu-node-11: task 0: Out Of Memory

Est-ce que quelqu'un d'expérimenté pourrait m'aiguiller ?

Merci

Tu dois en effet augmenter la mémoire que tu alloues à ton job. Par défaut, c'est 2GB donc quand ton job dépasse, il est tué.

srun --mem 10GB ...

Ou plus à toi de voir !

J'ai un autre problème : no space left on device

(base) [jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... failed                                                                                                                

NoSpaceLeftError: No space left on devices.

Pourtant le disque est loin d'être plein

(base) [jvanhelden@clust-slurm-client ~]$ df -H .
Filesystem                                       Size  Used Avail Use% Mounted on
192.168.16.184@tcp:192.168.16.186@tcp:/ifbstor1  2.3P  320T  1.9P  15% /shared/ifbstor1

et je viens de dégager quelques dizaines de Go de mon dossier $HOME.
Il est vrai que mon dossier perso occupe une place démesurée (avec des fichiers qui datent d'avant les espaces-projets partagés).

J'essaie de faire de la place dans mon espace perso mais j'ai un autre problème: l'effacement ne fonctionne pas (voir ticket Effacement de fichiers/dossiers)

J'ai demandé un espace-projet partagé où je transférerai un gros projet RNA-seq (et j'en profiterai pour faire le point et déposer ces données à l'ENA)

Bon, le problème n'est apparemment pas (uniquement) lié à l'espace disque que j'occupe.
Je relance la commande à 5 secondes d'intervalle, la première fois il dit qu'il n'y a pas de place sur le disque, et la seconde il commence le job

[jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... failed

NoSpaceLeftError: No space left on devices.

srun: error: cpu-node-15: task 0: Exited with exit code 1
[jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... done

Help!

Je pense que le problème no space left pourrait être lié à un autre problème (effacement erratique des fichiers)

D'autant plus que l'installation conda s'est interrompue un peu plus tard

[jvanhelden@clust-slurm-client ~]$ srun --mem 32Gb conda install anaconda conda-build anaconda-client
Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Solving environment: ...working... failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): ...working... failed

NoSpaceLeftError: No space left on devices.

srun: error: cpu-node-15: task 0: Exited with exit code 1

Je suppose qu'il rencontre le même type de coupure sporadique de l'accès au disque, et au moment où elle se produit conda s'arrête en indiquant qu'il n'y a plus de place.

Complément d'information : j'avais un script qui tournait sur RStudio, et il s'est interrompu avec la même erreur:

2022-02-25_222623               Running train/test with all variables
        recountID:      SRP066834
        Classifier:     knn
        permuted:       TRUE
        k:              3
        Data type:      q0.75
        Defining file Prefix for dataset SRP066834; data type: q0.75; classifier: knn
2022-02-25_222623               IterateTrainingTesting()
        ID: SRP066834
        feature type: transcript
        data type: q0.75
        permuted labels: TRUE
        Train/test iterations: 50
        classifier: knn
        KNN k:  3
        2022-02-25_222623       SRP066834       knn     train/test      50 iterations with 25 cores.
                Saving testing result table     ~/RNAseqMVA_workspace/results/SRP066834_transcript/knn/tables/SRP066834_transcript_knn_k3_q0.75_permLabels.tsv
Error in file(file, ifelse(append, "a", "w")) : 
  cannot open the connection
Calls: source ... eval -> IterateTrainingTesting -> write.table -> file
In addition: Warning message:
In file(file, ifelse(append, "a", "w")) :
  cannot open file '/shared/home/jvanhelden/RNAseqMVA_workspace/results/SRP066834_transcript/knn/tables/SRP066834_transcript_knn_k3_q0.75_permLabels.tsv': No space left on device
Execution halted

Pourtant les résultats sont sauvegardés dans un espace-projet séparé (rnaseqmva) où je n'occupe que 251Gb sur les 500 alloués:

                                   rnaseqmva [##########----------]     251 /     500 GB

et le disque a plein de place

(base) [jvanhelden@clust-slurm-client ~]$ df -h /shared/projects/rnaseqmva/
Filesystem                                       Size  Used Avail Use% Mounted on
192.168.16.184@tcp:192.168.16.186@tcp:/ifbstor1  2.0P  290T  1.7P  15% /shared/ifbstor1

@gildaslecorguille , @julien , je crois qu'il y a vraiment un problème avec le stockage du cluster (ou alors c'est spécifique à mon compte ?)

En effet Jacques, les erreurs "disque" sont reliés aux problèmes sur le stockage.