Mapping quality

Bonjour,

J'aurai besoin d'un avis sur les multiples possibilités d'améliorer la qualité du fichier bam.

Tout d'abord je suis partie sur un bowtie2 :
bowtie2 --threads $SLURM_CPUS_PER_TASK -x ../index_btw2/mm10/mm10 -U ../../01-qualitycontrol/WT/WT-IP-051218_S5_R1_001.fastq -S WT-IP-051218_S5_R1_001.fastq.sam

puis
samtools sort WT-050318_S1_R1_001.sam | samtools view -hbS > WT-050318_S1_R1_001.bam
samtools index WT-050318_S1_R1_001.bam

alors déjà là j'aurai du définir la qualité minimum des alignements que je conserve, donc samtools view -hbS -q 30 ; c'est bien ça ?
Ensuite je souhaiterais retirer les multiples reads. C'est possible de le faire directement sur la ligne samtools view ? type >> samtools view -hbS -q 30 -F 0x04 ?
Dois-je conserver un output des unmapped ?

Ensuite pour les dupliqués j'utilise picard MarkDuplicates mais j'avoue ne pas trop savoir comment analyser ce que j'en obtiens.

Voilà. Désolé pour mes questions sûrement assez naïves mais plutôt que de lancer des analyses de plusieurs heures avec des erreurs dedans je préfère demander avant !

Merci beaucoup !
Florian

Bonjour FlorianReb,

C'est quoi comme type de données ? (RNA, small RNA, DNA...)

NAdia

Chip-seq, single read, 75pb. J'ai WT, input et KO à analyser.

Merci !

https://github.com/carlherrmann/EBAI2018/blob/EBAI2018/hands-on/hands-on.md

nadia

@nadia, merci de nous avoir rejoint :slight_smile:

Mais peux-tu préciser ou cibler la partie du tuto de Karl qui répondrait le mieux à la question.

(Dans un markdown GitHub, si tu survoles un titre, tu verras un signe Lien. En cliquant dessus, tu obtiendras le lien vers le titre en question.)

Encore merci

Merci pour vos réponses. Le lien du tuto je l'avais bien conservé de la formation mais c'est du bowtie1 donc je suis moins "familié" avec le bowtie2. Je cherchais surtout à savoir si mon filtrage est ok (-q 30 -F4), pas suffisant voir même faux.

Bonjour,

Dans le tuto de Carl, il y a 5 sections pour un alignement Chip-seq de bonne qualité :

  1. Quality control of the reads and statistics
  2. Mapping the reads with Bowtie
  3. Estimating the number of duplicated reads
  4. ChIP quality controls
  5. Visualizing the data in a genome browser

(Je ne peux insérer dans mon message que 2 liens à la fois!)

Le reste du tuto est aussi tr§s untilepour le reste de l'analyse.
Bonne journée

nadia

1 J'aime

Un réglage par défaut pour les nouveaux utilisateurs. Je viens de monter à 25

1 J'aime

Bonjour,

L'option (-q30), de samtools view, filtre (filter-out) les reads avec un mapping quality < à 30
et l'option -F4 filtre les reads unmapped.

Markduplicates rajoute un tag aux reads "dupliqués". Et c'est le bam en sortie qu'il faut utiliser pour le reste de l'analyse.

NAdia

1 J'aime