Projet Bioinformatique Master : Création de graphe pangénome de la famille Brassicaceae

@team.software

Bonsoir à tous,
Etudiant en M2 CCB4 (Compétences Complémentaires en Bioinformatique Biostatistique
pour la Biologie et les sciences Biomédicales) à l'université de Rouen, je dois réaliser un projet d'analyse Bioinformatique.

J'ai décidé consacrer ce projet à la construction d'un graphe pangénome de la famille des Brassicacées, mais centré sur l'utilisation d'un chromosome uniquement par génome. La construction de ce graphe serait basé sur les outils du début de Pipeline Panzone qui sont les suivants :

  • Minimap2
  • SamTools
  • PanGenomeGraphBuilder (PGGB)
  • Minicactus2
  • Optionnellement Giraffe

Je travaillerai sur un groupe d'un seul chromosome (75 Mb) par génome, pour un total de 6 génomes, soit 450 Mb au total.

Le schéma de mon workflow est présent à cette addresse : Workflow graphe pangénome Brassicacées

Concernant les spécificités de RAM et de stockage estimées pour chaque outil (précisées également sur le schéma), les voici :

  • Minimap2 (RAM : 4-8 Gb / Stockage : 10 Gb)
  • SamTools (RAM : 2-4 Gb / Stockage : 12 Gb)
  • PanGenomeGraphBuilder (PGGB) (RAM : 64 -128 Gb / Stockage : 100 - 200 Gb
  • Minicactus2 (RAM : 16-32 Gb / Stockage : 50 - 100 Gb)
  • Giraffe (RAM : 10-15 Gb / Stockage : 20-50 Gb)

Ma responsable m'a conseillé de m'adresser à ce forum dans le cadre de l'installation des outils nécessaires à ce projet.

Je n'ai pas encore créé mon projet sur mon compte IFB, ayant préféré demandé la disponibilité de ces outils auparavant, et s'il était possible de les installer.

Je vous remercie par avance de votre aide et m'excuse si il s'avérait que mes informations soient insuffisantes ou mon sujet non-adapté.

Cordialement,

Bonjour @hnguyen97

Avant toute chose, il faut savoir que vous pouvez toujours installer/utiliser les outils par vous-même (en compilant, via des gestionnaires de paquets type conda, pip, cran, etc ou via des containers en utilisant singularity).
L'installation est plus ou moins compliqué (dur en compilant, facile avec un gestionnaire de paquet ou un container). Cela dépends principalement de la disponibilité du logiciel (est-il accessible avec un gestionnaire de paquet, sous forme de container, etc).

Vous pouvez également nous solliciter pour les installer. Il faut alors nous donner le lien du logiciel (notre culture bio-informatique est limitée) et la version souhaitée (si il y a besoin d'une version spécifique).

Pour vérifier qu'un logiciel est disponible sur l'IFB, une fois connecté, il faut utiliser les commandes "module" ( i.e. "Environment Modules"): Conda / Singularity / Module - IFB Core Cluster Documentation

A priori, tout est dispo (pas toujours les dernières versions):

  • minimap2

    minimap2/2.13  minimap2/2.17  minimap2/2.18  minimap2/2.24  minimap2/2.28  
    
  • samtools

    samtools/1.3.1  samtools/1.9   samtools/1.13  samtools/1.15.1  samtools/1.21  
    samtools/1.5    samtools/1.10  samtools/1.14  samtools/1.18    
    
  • pangenomegraphbuilder

    pggb/0.5.4  pggb/0.6.0  
    
  • minicactus2
    A priori fait partie de la suite Cactus

    cactus/2.8.3  
    
  • Optionnellement Giraffe
    A priori dans l'outil vg (https://github.com/vgteam/vg)

    vg/1.50.1
    

Sinon, pas de soucis côté ressources (CPU, RAM ou Stockage)

1 « J'aime »