Analyse des motifs et problème de génome en fichier fasta

Bonjour,

Encore moi, le projet avance mais là je me heurte à un vrai problème dont je ne trouve aucune solution sur le net.
Après avoir utilisé macs et obtenu les fichiers .bed , je souhaite analyser les motifs via RSAT. Sauf qu'il faut les pics sous forme fasta et donc utiliser la fonction bedtools getfasta avec le génome.fa.
Premier problème, le génome que j'ai utilisé (mm10) au tout début pour l'alignement est au format btw2 et je n'arrive pas à le retrouver en .fa. Ensuite j'ai essayé de prendre un équivalent de génome de souris en .fa (dernier essai avec est.fa) mais lorsque je lance l'analyse getfasta il me répond
"WARNING. chromosome (chr1) was not found in the FASTA file. Skipping."
et ce jusqu'au chromosome 9 (le fichier généré fait 0B).

Voici ma ligne de commande :
samtools faidx ../02-mapping/index_btw2/est.fa/est.fa

bedtools getfasta -fi ../02-mapping/index_btw2/est.fa/est.fa -bed ../05-Peakcalling/WTtoKO05_peaks.bed -fo WTtoKO05_peaks.fa

Mercii !

Bonjour @FlorianReb
Vous trouverez les banques indexées pour mm10 ici : /shared/data/bank/mus_musculus/mm10

Dont :

  • /shared/data/bank/mus_musculus/mm10/fasta
  • /shared/data/bank/mus_musculus/mm10/bowtie2

Normalement, en ciblant les fichiers fasta (.fa et .fa.fai) mis à disposition, bowtie2 devrait s'y retrouver.

Bonjour merci,

J'obtiens ça comme réponse :

(eba2018_chipseq) clust-slurm-client frebeillard /shared/projects/eba2018_frebeillard/mychipseq/06-Motifanalysis
$ bedtools getfasta -fi ../../../../data/bank/mus_musculus/mm10/fasta/mm10.fa -bed ../05-Peakcalling/WTtoKO05_peaks.bed -fo WTtoKO05_peaks.fa

Error: The requested fasta database file (../../../../data/bank/mus_musculus/mm10/fasta/mm10.fa) could not be opened. Exiting!

Mon .bed n'a pas été obtenu à partir de votre index bowtie2, est-ce un problème ?
Merci.

Essayez avec un chemin absolu :

bedtools getfasta -fi /shared/data/bank/mus_musculus/mm10/fasta/mm10.fa -bed ../05-Peakcalling/WTtoKO05_peaks.bed -fo WTtoKO05_peaks.fa

Au bout de ../../, on peut se poser la question de préférer un chemin absolu :slight_smile:

1 J'aime

Bonjour,

J'appuie la remarque de @gildaslecorguille, en indiquant qu'il est toujours plus sûre d'indiquer les chemins absolus concernant des fichiers de données important comme le génome de référence ou toutes autre données extérieures au projet. Cela permet de correctement tracer les références utilisées.

D'autre part pour débuguer seul, vous auriez pu tester la commande

ls ../../../../data/bank/mus_musculus/mm10/fasta/mm10.fa

qui vous aurait retourner une erreur
puis tester en ajoutant un dossier à la fois pour tenter de trouver à partir de quel fichier vous vous tromper

ls ../
ls ../../
ls ../../..
ls ../../../../
ls ../../../../data

etc

pour finir (j'insiste peut être trop lourdement ...), les chemins relatifs sont, à mon sens, intéressant pour naviguer dans votre propre espace de fichiers (dont vous êtes le seul responsable de la structuration). Dans le cas où c'est un fichier partagé géré par une autre personne que vous, alors le chemin absolu est une meilleure solution.

Bonne analyse

1 J'aime