Trop de genes predit Braker3

Bonjour à tous,

J'ai lancé sur l'interface usegalaxy.fr une annotation de génome eucaryote via Braker3. En input, j'ai mon génome de référence soft-masqué et un gros fichier .bam issu du mapping de RNAseq d'une centaine d'échantillons différents.

Je me retrouve avec ~60000 gènes prédits, ce qui est bien plus élevé qu'attendu par rapport à l'annotation produite sur le précédent génome (~30000 gènes). Les données BUSCO de ce nouveau génome ne semblent pas révéler une duplication anormale de gènes.

Sur le GitHub de Braker (More genes predicted than expected gene number · Issue #319 · Gaius-Augustus/BRAKER · GitHub), il est mentionné un outil qui permet de trier les gènes prédits selon trois catégories :

  • Genes fully supported by hints. These are the most confident predictions.
  • Genes at least partially supported by hints.
  • Genes not supported by hints. These are fully computational predictions and thus the least confident.

Pour faire tourner le script qui catégorise les prédictions, il faut le fichier predictionAnalysis.py, qui est produit en même temps que les autres fichiers par BRAKER.

Je voudrais savoir s'il est possible de récupérer ce fichier.

Bonne journée, Jérémie

Bonjour,
En effet c'est un nombre de gène qui semble trop élevé. J'avais déjà observé ça sur braker2, mais je pensais que braker3 était monis problématique sur ce point.

En tout cas le lien vers github concerne plutôt braker2, je ne sais pas si c'est valable pour braker3. Ça vaut peut-être le coup de créer une nouvelle issue sur braker3 spécifiquement ? La première chose à regarder sera sans doute les sources de données utilisées pour faire l'annotation (protéines, rnaseq, transcripts, masquage)

Les scripts en question sont dispo sur BRAKER/scripts/predictionAnalysis at report · Gaius-Augustus/BRAKER · GitHub mais je crains que galaxy ne conserve pas tous les fichiers de sortie permettant de lancer ces scripts...

J'espère que ça pourra aider
Anthony