Bonjour,
Serait-il possible d'avoir access à la partition bigmem? Je lance une analyse RNAsplice avec nfcore et ca n'arrête pas d'être stoppé à cause d'un manque de memoire.
Le projet est rna_methylation_m6a
Merci beaucoup
Pierre
Bonjour,
Serait-il possible d'avoir access à la partition bigmem? Je lance une analyse RNAsplice avec nfcore et ca n'arrête pas d'être stoppé à cause d'un manque de memoire.
Le projet est rna_methylation_m6a
Merci beaucoup
Pierre
Bonjour,
Par défaut sans même parler de bigmem
, vous pouvez d'ores et déjà demander jusqu'à 1500GB
de mémoire.
N'hésitez donc pas à augmenter la mémoire et je vous propose de revenir vers nous si cela s'avère toujours insuffisant.
Bonjour et merci beaucoup pour votre retour.
J'ai effectué plusieurs tests avec différentes allocations de mémoire (en allant jusqu'à 1500G), comme suggéré, mais je rencontre toujours l'erreur 137, indiquant un problème de mémoire (confirmé par mes logs). Mon pipeline plante régulièrement.
De plus, lorsque j’exécute la commande squeue
, mes jobs restent en attente (pending
), et la dernière colonne indique que j'ai atteint la limite maximale de mémoire allouée par utilisateur.
Existe-t-il une solution à ce problème ? Serait-il possible d'obtenir un accès à la partition bigmem ?
Merci par avance pour votre aide.
Pierre
Bonjour - je me permet de vous relancer. Serait-il possible d'avoir accès a bigmem? C'est juste pour verifier si cela fixe mon problème (notre bio informaticien au sein de l'institut est convaincu que le problème vient du manque de memoire), dans le cas contraire je n'aurai plus besoin de l'accès.
Merci.
Pierre
Bonjour,
Pour vos jobs avec 36Go de mémoire, en effet, la quantité était bien insuffisante (le job s'arrête cause "Out of Memory").
Pour les essais suivants, la mémoire ne semble pas en cause. En tout cas votre job s'arrête à votre demande (scancel) ou simplement à cause d'un timeout (>1j).
Il faut donc relancer en demandant plus de temps (je prendrais pas seulement 2j mais peut-être 10j, si vous ne connaissez pas le temps d’exécution, il vaut mieux viser large).
Mais je note surtout un autre problème, vous demander 1400G de mémoire mais seulement 1 CPU ...
C'est bizarre et probablement très inefficace.
Usuellement on utilise proportionnellement la mémoire et le CPU de la machine.
Je vous invite donc à relancer votre job en spécifiant plus de CPU (128 CPU par exemple). Mais surtout à vérifier que votre programme peut prendre en charge plusieurs CPU (option threads, process, core, cpu) et à lancer en cohérence avec les CPU demandés (si je demande 128 CPU, je doit indiquer à mon programme d'utiliser 128 threads/process/core/cpu/etc).
J'oubliais les noeuds disposant de bcp de mémoire ne sont pas pléthorique.
De plus, vous demandez beaucoup de ressource (dans les faits cela reviens quasiment à avoir un gros serveur uniquement pour soi).
Il est donc normal d'attendre un peu. D'autant que le cluster est parfois un peu chargé.
En effet il y a des quota par utilisateur (SLURM at {{ platform.name }} - IFB Core Cluster Documentation) dont la mémoire.
A un instant t, par défaut, vous ne pouvez pas utiliser plus de 1500G de Ram.
Cela permets d'avoir un usage plus équitable des ressources.
Dites-moi si ça coince toujours
Re-bonjour,
Merci beaucoup pour votre retour.
Voici le script qui me pose problème depuis plusieurs semaines. Celui dont vous faites reference n'est pas celui pour lequel j'ai ouvert le post.
J'ai fait plusieurs essais en demandant différentes allocations de mémoire : 56G, 126G, 300G, 500G, etc., jusqu'à 1500G. J'ai aussi essayé en modifiant le nombre de -cpus-per-task.
Le script s'arrête et l'erreur que j'obtiens est:
NFCORE_RNASPLICE:RNASPLICE:ALIGN_STAR:BAM_SORT_STATS_SAMTOOLS:SAMTOOLS_SORT (MTVE_P8)` terminated with an error exit status (137).
Pensez-vous qu’il y aurait un moyen de modifier le script pour éviter ce message d’erreur et empêcher qu’il ne crash, sans avoir à recourir à bigmem ?
Je suis désolé si j’ai mal configuré le script. Je n’ai jamais rencontré ce problème avec mes autres analyses, mais pour cette analyse en particulier, les échantillons sur lesquels je travaille sont nombreux et assez volumineux.
Merci d’avance pour votre aide !
Pierre
#!/bin/bash
#SBATCH --job-name=rnasplice_pipeline # Job name
#SBATCH --mem=1400G
#SBATCH --time=24:00:00 # Maximum run time
#SBATCH --output=rnasplice_%j.out # Standard output file
#SBATCH --error=rnasplice_%j.err # Standard error file
# --- Load Required Modules ---
module purge
module load singularity
module load openjdk/22.0.1
module load nextflow/24.04.4
nextflow run nf-core/rnasplice -r 1.0.4 \
--input /shared/projects/rna_methylation_m6a/samplesheet.csv \
--contrasts /shared/projects/rna_methylation_m6a/contrastsheet.csv \
--fasta /shared/bank/homo_sapiens/GRCh38.p14/latest_ensembl/fasta/Homo_sapiens.GRCh38.dna.primary_assembly.fa\
--gtf /shared/bank/homo_sapiens/GRCh38.p14/latest_ensembl/gtf/Homo_sapiens.GRCh38.110.gtf \
--rmats true \
--rmats_read_len 149 \
--sashimi_plot true \
-profile ifb_core \
--save_align_intermeds true \
--outdir /shared/projects/rna_methylation_m6a/nfcore_rebecca \
--star_index /shared/bank/homo_sapiens/GRCh38.p14/latest_ensembl/indexes/star-2.7.11a \
-resume \
-with-trace trace.csv \
-with-report report.html
J'ai aussi essayé en allouant plus de mémoire a samtools sort en changeant le config file, mais ca n'a rien changé.
// Override for the SAMTOOLS_SORT process in nf-core/rnasplice
withName('NFCORE_RNASPLICE:RNASPLICE:BAM_SORT_STATS_SAMTOOLS:SAMTOOLS_SORT') {
cpus = 12
memory = "300 GB"
time = "24h"
}
Le script s'arrête et l'erreur que j'obtiens est:
[...]
Pensez-vous qu’il y aurait un moyen de modifier le script pour éviter ce message d’erreur et empêcher qu’il ne crash, sans avoir à recourir à bigmem ?
Encore une fois, le problème n'est pas lié à la mémoire demandé.
Tous vos jobs ont utilisé 2Go au maximum !
$ sacct -S 2025-03-01 -o JobID%15,JobName%20,Account%20,Partition,ReqMem,MaxRSS%15,NTasks,AllocCPUS,Timelimit,Elapsed,State%20,ExitCode,Submit,Node -u pkleinreds --name=rnasplice_pipeline
JobID JobName Account Partition ReqMem MaxRSS NTasks AllocCPUS Timelimit Elapsed State ExitCode Submit NodeList
--------------- -------------------- -------------------- ---------- ---------- --------------- -------- ---------- ---------- ---------- -------------------- -------- ------------------- ---------------
44705518 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:00:25 FAILED 1:0 2025-03-01T07:59:15 cpu-node-98
44705518.batch batch rna_methylation_m6a 1992K 1 1 00:00:25 FAILED 1:0 2025-03-01T07:59:16 cpu-node-98
44705533 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:51:06 FAILED 1:0 2025-03-01T08:03:08 cpu-node-98
44705533.batch batch rna_methylation_m6a 1031912K 1 1 00:51:06 FAILED 1:0 2025-03-01T08:03:09 cpu-node-98
44707804 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:00:25 FAILED 1:0 2025-03-01T14:02:01 cpu-node-91
44707804.batch batch rna_methylation_m6a 1992K 1 1 00:00:25 FAILED 1:0 2025-03-01T14:02:02 cpu-node-91
44708052 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:38:22 FAILED 1:0 2025-03-01T14:27:09 cpu-node-91
44708052.batch batch rna_methylation_m6a 1042868K 1 1 00:38:22 FAILED 1:0 2025-03-01T14:27:10 cpu-node-91
44711568 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 01:06:06 FAILED 1:0 2025-03-01T19:23:46 cpu-node-102
44711568.batch batch rna_methylation_m6a 1036280K 1 1 01:06:06 FAILED 1:0 2025-03-01T19:23:47 cpu-node-102
44712564 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:00:32 FAILED 1:0 2025-03-01T21:10:43 cpu-node-102
44712564.batch batch rna_methylation_m6a 707196K 1 1 00:00:32 FAILED 1:0 2025-03-01T21:10:44 cpu-node-102
44712573 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:00:00 FAILED 1:0 2025-03-01T21:18:43 cpu-node-102
44712573.batch batch rna_methylation_m6a 1992K 1 1 00:00:00 FAILED 1:0 2025-03-01T21:18:44 cpu-node-102
44712574 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:00:52 CANCELLED by 181046 0:0 2025-03-01T21:19:25 cpu-node-102
44712574.batch batch rna_methylation_m6a 418620K 1 1 00:00:53 CANCELLED 0:15 2025-03-01T21:19:26 cpu-node-102
44712576 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:01:02 FAILED 1:0 2025-03-01T21:20:52 cpu-node-102
44712576.batch batch rna_methylation_m6a 654684K 1 1 00:01:02 FAILED 1:0 2025-03-01T21:20:52 cpu-node-102
44712580 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:00:31 CANCELLED by 181046 0:0 2025-03-01T21:22:38 cpu-node-102
44712580.batch batch rna_methylation_m6a 935388K 1 1 00:00:32 CANCELLED 0:15 2025-03-01T21:22:39 cpu-node-102
44712582 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:24:05 CANCELLED by 181046 0:0 2025-03-01T21:24:01 cpu-node-102
44712582.batch batch rna_methylation_m6a 2059820K 1 1 00:24:06 CANCELLED 0:15 2025-03-01T21:24:02 cpu-node-102
44712928 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:20:08 CANCELLED by 181046 0:0 2025-03-01T21:53:55 cpu-node-102
44712928.batch batch rna_methylation_m6a 1064724K 1 1 00:20:10 CANCELLED 0:15 2025-03-01T21:53:59 cpu-node-102
44713013 rnasplice_pipeline rna_methylation_m6a fast 100G 8 1-00:00:00 00:46:13 FAILED 127:0 2025-03-01T22:15:56 cpu-node-41
44713013.batch batch rna_methylation_m6a 1469800K 1 8 00:46:13 FAILED 127:0 2025-03-01T22:16:03 cpu-node-41
44714260 rnasplice_pipeline rna_methylation_m6a fast 100G 8 1-00:00:00 00:03:18 FAILED 127:0 2025-03-02T08:48:23 cpu-node-19
44714260.batch batch rna_methylation_m6a 1430244K 1 8 00:03:18 FAILED 127:0 2025-03-02T08:48:24 cpu-node-19
44714702 rnasplice_pipeline rna_methylation_m6a fast 100G 8 1-00:00:00 00:01:38 FAILED 127:0 2025-03-02T09:05:22 cpu-node-19
44714702.batch batch rna_methylation_m6a 1466856K 1 8 00:01:38 FAILED 127:0 2025-03-02T09:05:23 cpu-node-19
44716338 rnasplice_pipeline rna_methylation_m6a fast 100G 8 1-00:00:00 00:03:10 FAILED 1:0 2025-03-02T10:34:57 cpu-node-19
44716338.batch batch rna_methylation_m6a 1383036K 1 8 00:03:10 FAILED 1:0 2025-03-02T10:34:57 cpu-node-19
44723653 rnasplice_pipeline rna_methylation_m6a fast 100G 8 1-00:00:00 02:04:23 FAILED 1:0 2025-03-02T15:43:34 cpu-node-62
44723653.batch batch rna_methylation_m6a 1440600K 1 8 02:04:23 FAILED 1:0 2025-03-02T15:43:35 cpu-node-62
44723768 rnasplice_pipeline rna_methylation_m6a fast 1500G 1 1-00:00:00 15:37:27 CANCELLED by 181046 0:0 2025-03-02T15:49:47 cpu-node-97
44723768.batch batch rna_methylation_m6a 1096824K 1 1 15:37:29 CANCELLED 0:15 2025-03-02T17:47:58 cpu-node-97
44730679 rnasplice_pipeline rna_methylation_m6a fast 200G 1 1-00:00:00 00:02:32 FAILED 1:0 2025-03-03T09:26:36 cpu-node-95
44730679.batch batch rna_methylation_m6a 1042232K 1 1 00:02:32 FAILED 1:0 2025-03-03T09:26:38 cpu-node-95
44730912 rnasplice_pipeline rna_methylation_m6a fast 1000G 1 1-00:00:00 00:04:07 FAILED 1:0 2025-03-03T09:37:01 cpu-node-98
44730912.batch batch rna_methylation_m6a 1048904K 1 1 00:04:07 FAILED 1:0 2025-03-03T09:37:02 cpu-node-98
44755568 rnasplice_pipeline rna_methylation_m6a fast 600G 1 1-00:00:00 00:02:45 FAILED 1:0 2025-03-04T09:06:58 cpu-node-93
44755568.batch batch rna_methylation_m6a 1048984K 1 1 00:02:45 FAILED 1:0 2025-03-04T09:06:58 cpu-node-93
44756728 rnasplice_pipeline rna_methylation_m6a fast 900G 1 1-00:00:00 00:03:01 FAILED 1:0 2025-03-04T09:48:13 cpu-node-97
44756728.batch batch rna_methylation_m6a 1069980K 1 1 00:03:01 FAILED 1:0 2025-03-04T09:48:15 cpu-node-97
44757479 rnasplice_pipeline rna_methylation_m6a fast 900G 1 1-00:00:00 00:03:36 FAILED 1:0 2025-03-04T09:56:09 cpu-node-93
44757479.batch batch rna_methylation_m6a 1053480K 1 1 00:03:36 FAILED 1:0 2025-03-04T09:56:10 cpu-node-93
44763831 rnasplice_pipeline rna_methylation_m6a fast 1300G 1 1-00:00:00 00:35:04 CANCELLED by 181046 0:0 2025-03-04T13:32:42 cpu-node-110
44763831.batch batch rna_methylation_m6a 1040872K 1 1 00:35:05 CANCELLED 0:15 2025-03-04T13:32:43 cpu-node-110
44764128 rnasplice_pipeline rna_methylation_m6a fast 1400G 1 1-00:00:00 02:23:23 CANCELLED by 181046 0:0 2025-03-04T14:08:04 cpu-node-110
44764128.batch batch rna_methylation_m6a 1084656K 1 1 02:23:24 CANCELLED 0:15 2025-03-04T14:08:06 cpu-node-110
44766967 rnasplice_pipeline rna_methylation_m6a fast 1400G 0 1-00:00:00 00:00:00 CANCELLED by 181046 0:0 2025-03-04T14:38:51 None assigned
44772662 rnasplice_pipeline rna_methylation_m6a fast 1400G 1 1-00:00:00 00:00:01 COMPLETED 0:0 2025-03-04T17:21:07 cpu-node-110
44772662.batch batch rna_methylation_m6a 2000K 1 1 00:00:01 COMPLETED 0:0 2025-03-04T17:21:08 cpu-node-110
44772682 rnasplice_pipeline rna_methylation_m6a fast 1400G 1 1-00:00:00 1-00:00:12 TIMEOUT 0:0 2025-03-04T17:21:37 cpu-node-110
44772682.batch batch rna_methylation_m6a 70036K 1 1 1-00:00:14 CANCELLED 0:15 2025-03-04T17:21:38 cpu-node-110
44910341 rnasplice_pipeline rna_methylation_m6a fast 14000G 0 3-00:00:00 00:00:00 CANCELLED by 181046 0:0 2025-03-10T16:53:01 None assigned
44910663 rnasplice_pipeline rna_methylation_m6a fast 1500G 0 3-00:00:00 00:00:00 CANCELLED by 181046 0:0 2025-03-10T16:59:28 None assigned
44910753 rnasplice_pipeline rna_methylation_m6a fast 1500G 0 2-00:00:00 00:00:00 PENDING 0:0 2025-03-10T17:00:28 None assigned
De nouveau, il convient également de spécifier le nombre de CPU (par exemple via --cpus-per-task
).
1 (par défaut) me semble clairement insuffisant.
Si ça ne fonctionne pas, peut-être convient-t-il de voir avec les auteurs du pipeline.
On peut noter des erreurs similaires, par exemple: Spare memory for samtools issue · Issue #145 · nf-core/rnasplice · GitHub