Soumission données brutes

Bonjour,

Je suis en train de regarder par rapport à la possibilité de charger nos données brutes de séquençage sur EMERGEN
=> Et le document à ce propos fait mention du fait que les données doivent être "de-hosted"
=> Avez-vous des recommandations d'outils / de workflows pour réaliser cette étape ?

Pour l'analyse des données nous utilisons le pipeline viralrecon
=> Paramétré de telle sorte que :

  1. Les reads sont trimmés selon leur qualité
  2. Les reads sont assignés par Kraken2 contre un index contenant seulement le génome humain et
  3. Les reads assignés "Humain" sont filtrés et les reads restants sont alignés contre le génome du Sars-Cov-2 --> production d'un 1er BAM par échantillon
  4. Les séquences des primers (ARTIC v4.1) sont soft-clippées avec ivar trim --> production d'un 2nd BAM par échantillon

Est-ce que l'un des 2 BAM produits peut convenir ?
=> Ou bien est-ce que les données ne sont plus assez "brutes" à ce stade et qu'il vaut mieux aller récupérer cette liste de reads non-humains dans les FASTQ d'origine ?
=> Un peu comme ce qui est expliqué dans ce tuto Galaxy

Désolé si la question a déjà été posée (je découvre "community.france-bioinformatique.fr")
Un grand merci d'avance !
Bien à vous,
Félix (bio-informaticien au CHU de Reims).

1 « J'aime »

Bonjour Félix,

Merci d'avoir soulevé ce point qui pose également question ici !

Je suis bio-informaticienne au CHU de Bordeaux en charge de la soumission des données sars-Cov-2. Notre pipeline ncov2019-artic-nf ne prend pas en charge le de-hosting des reads, les alignant directement au génome viral avec bwa mem après QC des reads.

Je souhaitais partager avec vous le pipeline ncov-dehoster, aperçu sur GitHub au lien suivant . Ce pipeline sous Nextflow permet de traiter les données brutes Illumina ou Nanopore pour obtenir notamment des fichiers fastq contenant des reads "dehosted". Je ne l'ai pas testé mais il me semble être intéressant si nous devons déposer ce type de fichiers en particulier.

Dans l'attente d'une réponse de la part de l'équipe, le dépôt des données brutes sur IFB-core est en stand-by à Bordeaux.

Très bonne journée à tous,
Valentine

Bonjour Valentine,

Je te remercie de ta réponse !
J'avais également aperçu "ncov-dehoster", mais je trouvais un peu dommage de refaire des étapes qui finalement étaient déjà un peu réalisées par nos pipelines (même si pour ma part, pas directement d'alignement contre le génome humain dans viralrecon)

Entre temps j'ai donc opté pour l'approche suivante (pour chaque échantillon) :

  1. Récupérer le BAM produit par le pipeline (donc reads d'abord de-hostés avec Kraken2 contre un index Humain, puis alignés contre le génome du Sars-Cov-2)
  2. Récupérer la liste des reads qui s'alignent contre le génome du Sars-Cov-2
  3. "grep" cette liste de reads dans chacun des 2 fichiers FASTQ de ce patient (à l'aide de seqkit) et génération d'une nouvelle paire de FASTQ "de-hostés"

=> Commandes exactes :
samtools view -F4 sample.bam | cut -f1 | sort -u > sample_viral-reads.list
seqkit grep -f sample_viral-reads.list sample_R1.fastq.gz -o sample-dehosted_R1.fastq.gz
seqkit grep -f sample_viral-reads.list sample_R2.fastq.gz -o sample-dehosted_R2.fastq.gz

A Reims aussi cela attendra probablement la rentrée
=> Si toujours pas de réponse de l'équipe ici, peut-être qu'on pourrait tenter directement l'adresse mentionnée sur le document EMERGEN à ce sujet ? ("support-emergen-workflows@...")

Bonne journée à tous !
Félix.

Bonjour à vous deux,

@fvandermeeren L'IFB accepte les fichiers de séquences brutes au format BAM seulement si la plateforme n'est pas en mesure de fournir des fichiers fastq pour une raison quelconque, mais nous préférons recevoir directement les fastq car cela nous évite les traitements intermédiaires quand nous recevons les données.

Par rapport a votre première question, nous vous conseillons de déposer des données brutes sans primers (donc les reads issus du "2nd" fichier BAM) car nous n'allons pas forcément disposer des kits de primers "homemade" de certaines plateformes pour faire le clipping des primers de notre côté... Le fichier BAM obtenu après élimination des primers reste exploitable.

L'approche que vous utilisez ensuite me parait tout a fait correcte (extraction des reads et concaténation dans des fastq pairés), et les fastq de sortie répondront au critère de dehosting des séquences humaines établi par l'IFB et SPF.

@vlesourdaubert J'ai jeté un oeil a ce pipeline nextflow de dehosting "ncov-dehoster", et nous utilisons une procédure similaire pour faire du dehosting de notre côté, a l'exception du pipeline utilisant "Nanostripper". Je garde le lien vers ce pipeline quelque part pour éventuellement l'ajouter a la procédure de dépot, cela pourra sans doute aider certaines plateformes pour faire cette étape de dehosting :wink:

Est ce que c'est quelque chose qui pourrait vous intéresser d'avoir une section "tutoriel" ou "ressources" dans la procédure de dépôt où vous pourriez trouver de l'aide pour le traitement des données en amont du téléversement (par exemple l'extraction de reads ou le dehosting) et de l'aide a l'automatisation du téléversement ?

Bonne journée,
Arthur

1 « J'aime »