Demande d’accès à la partition bigmem - projet rna_methylation_m6a

Bonjour,

Serait-il possible d'avoir access à la partition bigmem? Je lance une analyse RNAsplice avec nfcore et ca n'arrête pas d'être stoppé à cause d'un manque de memoire.

Le projet est rna_methylation_m6a

Merci beaucoup

Pierre

Bonjour,

Par défaut sans même parler de bigmem, vous pouvez d'ores et déjà demander jusqu'à 1500GB de mémoire.

N'hésitez donc pas à augmenter la mémoire et je vous propose de revenir vers nous si cela s'avère toujours insuffisant.

Bonjour et merci beaucoup pour votre retour.

J'ai effectué plusieurs tests avec différentes allocations de mémoire (en allant jusqu'à 1500G), comme suggéré, mais je rencontre toujours l'erreur 137, indiquant un problème de mémoire (confirmé par mes logs). Mon pipeline plante régulièrement.

De plus, lorsque j’exécute la commande squeue, mes jobs restent en attente (pending), et la dernière colonne indique que j'ai atteint la limite maximale de mémoire allouée par utilisateur.

Existe-t-il une solution à ce problème ? Serait-il possible d'obtenir un accès à la partition bigmem ?

Merci par avance pour votre aide.

Pierre

Bonjour - je me permet de vous relancer. Serait-il possible d'avoir accès a bigmem? C'est juste pour verifier si cela fixe mon problème (notre bio informaticien au sein de l'institut est convaincu que le problème vient du manque de memoire), dans le cas contraire je n'aurai plus besoin de l'accès.

Merci.

Pierre

Bonjour,

Pour vos jobs avec 36Go de mémoire, en effet, la quantité était bien insuffisante (le job s'arrête cause "Out of Memory").

Pour les essais suivants, la mémoire ne semble pas en cause. En tout cas votre job s'arrête à votre demande (scancel) ou simplement à cause d'un timeout (>1j).
Il faut donc relancer en demandant plus de temps (je prendrais pas seulement 2j mais peut-être 10j, si vous ne connaissez pas le temps d’exécution, il vaut mieux viser large).

Mais je note surtout un autre problème, vous demander 1400G de mémoire mais seulement 1 CPU ...
C'est bizarre et probablement très inefficace.
Usuellement on utilise proportionnellement la mémoire et le CPU de la machine.
Je vous invite donc à relancer votre job en spécifiant plus de CPU (128 CPU par exemple). Mais surtout à vérifier que votre programme peut prendre en charge plusieurs CPU (option threads, process, core, cpu) et à lancer en cohérence avec les CPU demandés (si je demande 128 CPU, je doit indiquer à mon programme d'utiliser 128 threads/process/core/cpu/etc).

J'oubliais les noeuds disposant de bcp de mémoire ne sont pas pléthorique.
De plus, vous demandez beaucoup de ressource (dans les faits cela reviens quasiment à avoir un gros serveur uniquement pour soi).
Il est donc normal d'attendre un peu. D'autant que le cluster est parfois un peu chargé.

En effet il y a des quota par utilisateur (SLURM at {{ platform.name }} - IFB Core Cluster Documentation) dont la mémoire.
A un instant t, par défaut, vous ne pouvez pas utiliser plus de 1500G de Ram.
Cela permets d'avoir un usage plus équitable des ressources.

Dites-moi si ça coince toujours

Re-bonjour,

Merci beaucoup pour votre retour.

Voici le script qui me pose problème depuis plusieurs semaines. Celui dont vous faites reference n'est pas celui pour lequel j'ai ouvert le post.

J'ai fait plusieurs essais en demandant différentes allocations de mémoire : 56G, 126G, 300G, 500G, etc., jusqu'à 1500G. J'ai aussi essayé en modifiant le nombre de -cpus-per-task.

Le script s'arrête et l'erreur que j'obtiens est:

NFCORE_RNASPLICE:RNASPLICE:ALIGN_STAR:BAM_SORT_STATS_SAMTOOLS:SAMTOOLS_SORT (MTVE_P8)` terminated with an error exit status (137). 

Pensez-vous qu’il y aurait un moyen de modifier le script pour éviter ce message d’erreur et empêcher qu’il ne crash, sans avoir à recourir à bigmem ?

Je suis désolé si j’ai mal configuré le script. Je n’ai jamais rencontré ce problème avec mes autres analyses, mais pour cette analyse en particulier, les échantillons sur lesquels je travaille sont nombreux et assez volumineux.

Merci d’avance pour votre aide ! :blush:

Pierre


#!/bin/bash
#SBATCH --job-name=rnasplice_pipeline   # Job name
#SBATCH --mem=1400G
#SBATCH --time=24:00:00                  # Maximum run time 
#SBATCH --output=rnasplice_%j.out         # Standard output file
#SBATCH --error=rnasplice_%j.err          # Standard error file

# --- Load Required Modules ---
module purge
module load singularity
module load openjdk/22.0.1
module load nextflow/24.04.4


nextflow run nf-core/rnasplice -r 1.0.4 \
  --input /shared/projects/rna_methylation_m6a/samplesheet.csv \
  --contrasts /shared/projects/rna_methylation_m6a/contrastsheet.csv \
  --fasta /shared/bank/homo_sapiens/GRCh38.p14/latest_ensembl/fasta/Homo_sapiens.GRCh38.dna.primary_assembly.fa\
  --gtf /shared/bank/homo_sapiens/GRCh38.p14/latest_ensembl/gtf/Homo_sapiens.GRCh38.110.gtf \
  --rmats true \
  --rmats_read_len 149 \
  --sashimi_plot true \
  -profile ifb_core \
  --save_align_intermeds true \
  --outdir /shared/projects/rna_methylation_m6a/nfcore_rebecca \
  --star_index /shared/bank/homo_sapiens/GRCh38.p14/latest_ensembl/indexes/star-2.7.11a \
  -resume \
  -with-trace trace.csv \
  -with-report report.html

J'ai aussi essayé en allouant plus de mémoire a samtools sort en changeant le config file, mais ca n'a rien changé.

// Override for the SAMTOOLS_SORT process in nf-core/rnasplice
withName('NFCORE_RNASPLICE:RNASPLICE:BAM_SORT_STATS_SAMTOOLS:SAMTOOLS_SORT') {
cpus = 12
memory = "300 GB"
time = "24h"
}

Le script s'arrête et l'erreur que j'obtiens est:
[...]
Pensez-vous qu’il y aurait un moyen de modifier le script pour éviter ce message d’erreur et empêcher qu’il ne crash, sans avoir à recourir à bigmem ?

Encore une fois, le problème n'est pas lié à la mémoire demandé.
Tous vos jobs ont utilisé 2Go au maximum !

$ sacct -S 2025-03-01 -o JobID%15,JobName%20,Account%20,Partition,ReqMem,MaxRSS%15,NTasks,AllocCPUS,Timelimit,Elapsed,State%20,ExitCode,Submit,Node -u pkleinreds --name=rnasplice_pipeline
          JobID              JobName              Account  Partition     ReqMem          MaxRSS   NTasks  AllocCPUS  Timelimit    Elapsed                State ExitCode              Submit        NodeList 
--------------- -------------------- -------------------- ---------- ---------- --------------- -------- ---------- ---------- ---------- -------------------- -------- ------------------- --------------- 
       44705518   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:00:25               FAILED      1:0 2025-03-01T07:59:15     cpu-node-98 
 44705518.batch                batch  rna_methylation_m6a                                 1992K        1          1              00:00:25               FAILED      1:0 2025-03-01T07:59:16     cpu-node-98 
       44705533   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:51:06               FAILED      1:0 2025-03-01T08:03:08     cpu-node-98 
 44705533.batch                batch  rna_methylation_m6a                              1031912K        1          1              00:51:06               FAILED      1:0 2025-03-01T08:03:09     cpu-node-98 
       44707804   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:00:25               FAILED      1:0 2025-03-01T14:02:01     cpu-node-91 
 44707804.batch                batch  rna_methylation_m6a                                 1992K        1          1              00:00:25               FAILED      1:0 2025-03-01T14:02:02     cpu-node-91 
       44708052   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:38:22               FAILED      1:0 2025-03-01T14:27:09     cpu-node-91 
 44708052.batch                batch  rna_methylation_m6a                              1042868K        1          1              00:38:22               FAILED      1:0 2025-03-01T14:27:10     cpu-node-91 
       44711568   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   01:06:06               FAILED      1:0 2025-03-01T19:23:46    cpu-node-102 
 44711568.batch                batch  rna_methylation_m6a                              1036280K        1          1              01:06:06               FAILED      1:0 2025-03-01T19:23:47    cpu-node-102 
       44712564   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:00:32               FAILED      1:0 2025-03-01T21:10:43    cpu-node-102 
 44712564.batch                batch  rna_methylation_m6a                               707196K        1          1              00:00:32               FAILED      1:0 2025-03-01T21:10:44    cpu-node-102 
       44712573   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:00:00               FAILED      1:0 2025-03-01T21:18:43    cpu-node-102 
 44712573.batch                batch  rna_methylation_m6a                                 1992K        1          1              00:00:00               FAILED      1:0 2025-03-01T21:18:44    cpu-node-102 
       44712574   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:00:52  CANCELLED by 181046      0:0 2025-03-01T21:19:25    cpu-node-102 
 44712574.batch                batch  rna_methylation_m6a                               418620K        1          1              00:00:53            CANCELLED     0:15 2025-03-01T21:19:26    cpu-node-102 
       44712576   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:01:02               FAILED      1:0 2025-03-01T21:20:52    cpu-node-102 
 44712576.batch                batch  rna_methylation_m6a                               654684K        1          1              00:01:02               FAILED      1:0 2025-03-01T21:20:52    cpu-node-102 
       44712580   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:00:31  CANCELLED by 181046      0:0 2025-03-01T21:22:38    cpu-node-102 
 44712580.batch                batch  rna_methylation_m6a                               935388K        1          1              00:00:32            CANCELLED     0:15 2025-03-01T21:22:39    cpu-node-102 
       44712582   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:24:05  CANCELLED by 181046      0:0 2025-03-01T21:24:01    cpu-node-102 
 44712582.batch                batch  rna_methylation_m6a                              2059820K        1          1              00:24:06            CANCELLED     0:15 2025-03-01T21:24:02    cpu-node-102 
       44712928   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:20:08  CANCELLED by 181046      0:0 2025-03-01T21:53:55    cpu-node-102 
 44712928.batch                batch  rna_methylation_m6a                              1064724K        1          1              00:20:10            CANCELLED     0:15 2025-03-01T21:53:59    cpu-node-102 
       44713013   rnasplice_pipeline  rna_methylation_m6a       fast       100G                                   8 1-00:00:00   00:46:13               FAILED    127:0 2025-03-01T22:15:56     cpu-node-41 
 44713013.batch                batch  rna_methylation_m6a                              1469800K        1          8              00:46:13               FAILED    127:0 2025-03-01T22:16:03     cpu-node-41 
       44714260   rnasplice_pipeline  rna_methylation_m6a       fast       100G                                   8 1-00:00:00   00:03:18               FAILED    127:0 2025-03-02T08:48:23     cpu-node-19 
 44714260.batch                batch  rna_methylation_m6a                              1430244K        1          8              00:03:18               FAILED    127:0 2025-03-02T08:48:24     cpu-node-19 
       44714702   rnasplice_pipeline  rna_methylation_m6a       fast       100G                                   8 1-00:00:00   00:01:38               FAILED    127:0 2025-03-02T09:05:22     cpu-node-19 
 44714702.batch                batch  rna_methylation_m6a                              1466856K        1          8              00:01:38               FAILED    127:0 2025-03-02T09:05:23     cpu-node-19 
       44716338   rnasplice_pipeline  rna_methylation_m6a       fast       100G                                   8 1-00:00:00   00:03:10               FAILED      1:0 2025-03-02T10:34:57     cpu-node-19 
 44716338.batch                batch  rna_methylation_m6a                              1383036K        1          8              00:03:10               FAILED      1:0 2025-03-02T10:34:57     cpu-node-19 
       44723653   rnasplice_pipeline  rna_methylation_m6a       fast       100G                                   8 1-00:00:00   02:04:23               FAILED      1:0 2025-03-02T15:43:34     cpu-node-62 
 44723653.batch                batch  rna_methylation_m6a                              1440600K        1          8              02:04:23               FAILED      1:0 2025-03-02T15:43:35     cpu-node-62 
       44723768   rnasplice_pipeline  rna_methylation_m6a       fast      1500G                                   1 1-00:00:00   15:37:27  CANCELLED by 181046      0:0 2025-03-02T15:49:47     cpu-node-97 
 44723768.batch                batch  rna_methylation_m6a                              1096824K        1          1              15:37:29            CANCELLED     0:15 2025-03-02T17:47:58     cpu-node-97 
       44730679   rnasplice_pipeline  rna_methylation_m6a       fast       200G                                   1 1-00:00:00   00:02:32               FAILED      1:0 2025-03-03T09:26:36     cpu-node-95 
 44730679.batch                batch  rna_methylation_m6a                              1042232K        1          1              00:02:32               FAILED      1:0 2025-03-03T09:26:38     cpu-node-95 
       44730912   rnasplice_pipeline  rna_methylation_m6a       fast      1000G                                   1 1-00:00:00   00:04:07               FAILED      1:0 2025-03-03T09:37:01     cpu-node-98 
 44730912.batch                batch  rna_methylation_m6a                              1048904K        1          1              00:04:07               FAILED      1:0 2025-03-03T09:37:02     cpu-node-98 
       44755568   rnasplice_pipeline  rna_methylation_m6a       fast       600G                                   1 1-00:00:00   00:02:45               FAILED      1:0 2025-03-04T09:06:58     cpu-node-93 
 44755568.batch                batch  rna_methylation_m6a                              1048984K        1          1              00:02:45               FAILED      1:0 2025-03-04T09:06:58     cpu-node-93 
       44756728   rnasplice_pipeline  rna_methylation_m6a       fast       900G                                   1 1-00:00:00   00:03:01               FAILED      1:0 2025-03-04T09:48:13     cpu-node-97 
 44756728.batch                batch  rna_methylation_m6a                              1069980K        1          1              00:03:01               FAILED      1:0 2025-03-04T09:48:15     cpu-node-97 
       44757479   rnasplice_pipeline  rna_methylation_m6a       fast       900G                                   1 1-00:00:00   00:03:36               FAILED      1:0 2025-03-04T09:56:09     cpu-node-93 
 44757479.batch                batch  rna_methylation_m6a                              1053480K        1          1              00:03:36               FAILED      1:0 2025-03-04T09:56:10     cpu-node-93 
       44763831   rnasplice_pipeline  rna_methylation_m6a       fast      1300G                                   1 1-00:00:00   00:35:04  CANCELLED by 181046      0:0 2025-03-04T13:32:42    cpu-node-110 
 44763831.batch                batch  rna_methylation_m6a                              1040872K        1          1              00:35:05            CANCELLED     0:15 2025-03-04T13:32:43    cpu-node-110 
       44764128   rnasplice_pipeline  rna_methylation_m6a       fast      1400G                                   1 1-00:00:00   02:23:23  CANCELLED by 181046      0:0 2025-03-04T14:08:04    cpu-node-110 
 44764128.batch                batch  rna_methylation_m6a                              1084656K        1          1              02:23:24            CANCELLED     0:15 2025-03-04T14:08:06    cpu-node-110 
       44766967   rnasplice_pipeline  rna_methylation_m6a       fast      1400G                                   0 1-00:00:00   00:00:00  CANCELLED by 181046      0:0 2025-03-04T14:38:51   None assigned 
       44772662   rnasplice_pipeline  rna_methylation_m6a       fast      1400G                                   1 1-00:00:00   00:00:01            COMPLETED      0:0 2025-03-04T17:21:07    cpu-node-110 
 44772662.batch                batch  rna_methylation_m6a                                 2000K        1          1              00:00:01            COMPLETED      0:0 2025-03-04T17:21:08    cpu-node-110 
       44772682   rnasplice_pipeline  rna_methylation_m6a       fast      1400G                                   1 1-00:00:00 1-00:00:12              TIMEOUT      0:0 2025-03-04T17:21:37    cpu-node-110 
 44772682.batch                batch  rna_methylation_m6a                                70036K        1          1            1-00:00:14            CANCELLED     0:15 2025-03-04T17:21:38    cpu-node-110 
       44910341   rnasplice_pipeline  rna_methylation_m6a       fast     14000G                                   0 3-00:00:00   00:00:00  CANCELLED by 181046      0:0 2025-03-10T16:53:01   None assigned 
       44910663   rnasplice_pipeline  rna_methylation_m6a       fast      1500G                                   0 3-00:00:00   00:00:00  CANCELLED by 181046      0:0 2025-03-10T16:59:28   None assigned 
       44910753   rnasplice_pipeline  rna_methylation_m6a       fast      1500G                                   0 2-00:00:00   00:00:00              PENDING      0:0 2025-03-10T17:00:28   None assigned 

De nouveau, il convient également de spécifier le nombre de CPU (par exemple via --cpus-per-task).
1 (par défaut) me semble clairement insuffisant.

Si ça ne fonctionne pas, peut-être convient-t-il de voir avec les auteurs du pipeline.
On peut noter des erreurs similaires, par exemple: Spare memory for samtools issue · Issue #145 · nf-core/rnasplice · GitHub