STAR RSEM et gestion des reads multimappés

Bonjour à tous,

Je fais appelles aux spécialistes de l'analyse de données RNASeq.

Je suis en cours d'analyse de données RNASeq et nous nous posons des questions concernant la gestion des lectures multimappées et de leur impact sur la quantification de l'expression des gènes/isoformes.

Le principe générale du workflow:

  • alignement STAR en 2 passes en précisant l'annotation du génome
  • quantification RSEM à partir des bam transcriptomiques générés en 2e passe d'alignement.

Il est recommandé de ne pas supprimer les lectures à alignement multiple avant RSEM.
RSEM utilise un algorithme EM pour estimer l'abondance des transcripts qui tient compte des "multireads"

J'avais compris que cet algo EM gérait les reads multi alignés. Mais en relisant la publi (https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-323), et une issue github (https://github.com/gis-rpd/pipelines/issues/97), j'ai l'impression que RSEM choisi un alignement par reads (sur quels critères ?) et que son algo EM gère ensuite le cas où cet alignement correspond à plusieurs gènes/transcripts.

Vous auriez une explication ?

Deuxième point, la procédure d'alignement STAR en 2 passes peut se faire de deux façon:

méthode 1

  • STAR Aln1 sur coordonnées genomiques qui permet de créer des fichier SJ_out contenant les informations sur les jonctions d'épissages
  • STAR Index2, en tenant compte de l'ensemble des fichiers SJ_out de chaque échantillon
  • STAR Aln2

** méthode 2**

  • STAR Aln1 sur coordonnées genomiques qui permet de créer des fichier SJ_out contenant les informations sur les jonctions d'épissages
  • pour un échantillon donné : STAR Aln2 en tenant compte du fichier SJ_out de l'écantillon obtenu à l'étape précédente.

A priori l'approche global (méthode 1) est plus précise mais lorsqu'on a beaucoup d'échantillons on va obtenir énormément de nouvelles jonctions et donc ralentir STAR Aln 2 (c'est un moindre mal) et augmenté le nombre de lectures multimappées

Est ce réellement un problème si RSEM gère correctement les multimappées ?

Alex Dobin (monsieur STAR), recommande si toutefois on choisit la méthode global sur un grand nombre d'échantillon, de filtrer les jonctions ( exemple de filtre ici : https://groups.google.com/forum/#!searchin/rna-star/2-pass|sort:date/rna-star/Cpsf-_rLK9I/gq-DaeyvBAAJ ).

Quelles sont vos habitudes / recommandations ? quelles méthodes et surtout quels filtre utilisez vous ?

Maria

ping @team.rnaseq (si besoin de complément :grin:)