Problème sbatch?

To.B · Juin 16, 2021, 12:43

Bonjour je rencontre actuellement un soucis lorsque je tente de lancer un script sur le cluster.
L'un de mes scripts est bloqué et affiche CG comme statuts et il n'est pas scancelable :

17154376      long bwa_oran  thboyer CG       0:10      1 cpu-node-19

les autres ne se lancent tout simplement pas, aucun retour de la console même pas de création des fichiers erreur ou output.

Voici le script en question :

#!/bin/bash
#SBATCH -p long
#SBATCH --job-name=bwa_oran
#SBATCH --cpus-per-task=30
#SBATCH --mem 100GB
#SBATCH -o /shared/projects/oran_lake_meta/results/final/bwa/bwa_metaspades_6_12/bwa_metaSpades_6_12/slurm_bwa.%N.%j.out
#SBATCH -e /shared/projects/oran_lake_meta/results/final/bwa/bwa_metaspades_6_12/bwa_metaSpades_6_12/slurm_bwa.%N.%j.err

module load bwa/0.7.17
module load samtools/1.10
##Mapping pour l'assemblage de metaSpades dont les contigs en défauts ont été viré

path_data=/shared/projects/oran_lake_meta/results/seqkit/
path_read=/shared/projects/oran_lake_meta/results/trimmomatic/120221_trimmomatic

cd /shared/projects/oran_lake_meta/results/final/bwa/bwa_metaspades_6_12

##Creation de l'index
bwa index -a bwtsw ${path_data}/contigs_validate_6_12_cov.fasta

#alignement
bwa mem ${path_data}/contigs_validate_6_12_cov.fasta ${path_read}/6-12-combined_1P.fq.gz ${path_read}/6-12-combined_2P.fq.gz  > mapping_6_12.sam
samtools view -S -b mapping_6_12.sam > mapping_6_12.bam
samtools flagstat mapping_6_12.bam

module unload bwa/0.7.17
module unload samtools/1.10

Savez vous si le problème vient de mon script ou du cluster ?

Je vous souhaite une bonne journée,

Théophile

dbenaben · Juin 16, 2021, 3:02

Bonjour Théophile,

Le status "CG" corresponds à "COMPLETING".
Le job est terminé (l'exécution du script bash ou de la commande est finit, avec succès ou en échec) mais une dernière étape ("completing") est réalisé avant de libérer le ressources (processus nettoyés, epilog, etc).
Cette dernière étape est réalisé en quelques secondes mais il peut arriver que cela coince.
Il n'y a rien à faire si ce n'est attendre que cela se termine (ou l'intervention d'un admin).

Plus d'information: Slurm Workload Manager -

Je ne vois pas de jobs CG pour vous. J'imagine donc que cela est résolu.

To.B · Juin 28, 2021, 1:14

Bonjour dbenaben,

Merci beaucoup pour votre réponse, le problème semblait en effet résolu... malheureusement il est réapparu mais avec un autre script cette fois ci.

Pour être plus précis, lorsque je soumets mon job avec sbatch, ici sur la partition long, celui ci se mets en PD (car il n'y a pas de place actuellement) puis un petit peu après passe en CG sans n'avoir rien exécuté, pour ensuite s'arrêter (comme vous me l'aviez expliquer dans votre post précédent).

J'en ai lancé plusieurs en même temps pour que vous visualisiez mieux :

JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
17343784      long squeeze_  thboyer CG       0:01      1 cpu-node-24
17343786      long squeeze_  thboyer PD       0:00      1 (Resources)
17343788      long squeeze_  thboyer PD       0:00      1 (Priority)

Comme cela fait deux fois que ça arrive avec deux scripts différents, je me demande si ce problème vient de moi ou non.

Voici le script squeezemeta_1_5.sh que je tente de lancer :

#!/bin/bash

#SBATCH -p long
#SBATCH --job-name=squeeze_meta_oran
#SBATCH --cpus-per-task=40
#SBATCH --mem 240GB
#SBATCH -o /shared/projects/oran_lake_meta/results/squeezemeta/final/slurm_sqm_1_5.%N.%j.out
#SBATCH -e /shared/projects/oran_lake_meta/results/squeezemeta/final/slurm_sqm_1_5.%N.%j.err

path_reads=/shared/projects/oran_lake_meta/results/trimmomatic/120221_trimmomatic
path_data=/shared/projects/oran_lake_meta/results/final/squeezemeta/sample_file_1_5.txt

module load squeezemeta/1.4.0beta1 

#Script :
SqueezeMeta.pl -m sequential -s $path_data -f $path_reads --euk --D --singletons -extassembly /shared/projects/oran_lake_meta/results/seqkit/contigs_validate_1_5_cov.fasta --nopfam -t $SLURM_CPUS_PER_TASK -b 20

module unload squeezemeta/1.4.0beta1

Je vous remercie pour votre temps et je vous souhaite une bonne journée,

Théophile

dbenaben · Juin 29, 2021, 2:38

Bonjour Théophile,

Merci pour les infos très complètes.

De ce que je voit, les jobs échouent (failed) immédiatement après le lancement.
Ce n'est pas dû au cluster ou autre mais bien au script ou au logiciel (squeezemeta).

# Par exemple pour le job 17343786
$  sacct -j 17343786 
       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
------------ ---------- ---------- ---------- ---------- ---------- -------- 
17343786     squeeze_m+       long oran_lake+         40     FAILED      1:0 
17343786.ba+      batch            oran_lake+         40     FAILED      1:0

Il faut du coup analyser le fichier de sortie que vous avez indiqué, à savoir:
/shared/projects/oran_lake_meta/results/squeezemeta/final/slurm_sqm_1_5.%N.%j.out
/shared/projects/oran_lake_meta/results/squeezemeta/final/slurm_sqm_1_5.%N.%j.err

Attention ! le répertoire où les sorties sont écrites doit exister (/shared/projects/oran_lake_meta/results/squeezemeta/final/).

Bonne continuation

To.B · Juin 29, 2021, 3:13

Problème résolu... il venait en effet du chemin d'écriture des outputs pour lequel j'avais inversé final et squeezemeta... Il ne pouvait donc rien écrire et plantait...

Merci beaucoup pour votre aide, je serais plus vigilant la prochaine fois

Théophile