Benchmarking des outils de mapping

Je participe aux soutenances des stages du DU-Bii, et je réalise que chacun utilise un ou deux outils différents pour le read-mapping, en basant le choix sur ce qui se fait dans les articles du domaine, sur les préférences de leur équipe, ou de l'encadrant.

Certains ont testé par exemple STAR et Salmon, et ils observent que STAR prend 24h et Salmon 2H, et ils décident donc d'utiliser Salmon pour l'ensemble de leur analyse.

Je me demande si nous ne devrions pas faire une calibration des outils que nous proposons, en prenant quelque jeux de données représentatifs , et en faisant tourner différents read-mappers avec des paramètres plus ou moins comparables, pour mesurer le temps de calcul, le taux de mapping correct. Nous pourrions ensuite fournir aux usagers quelques recommandations pour le choix du read-mapper.

Il existe certainement des tas de publications de benchmarking, qu'on pourrait également suggérer de lire, mais je trouve que ce serait assez utile d'offrir également quelque chose de très concret, simple à comprendre, avec un petit tableau qui indique le temps de calcul qu'on a obtenu sur notre propre infra, avec les outils qui y sont installés.

Ceci contribuerait également à optimiser l'utilisation de nos ressources: nous nous chargeons de faire une seule fois la calibration, et ça évitera à tous les usagers de faire leurs propres essais en faisant tourner plusieurs read mappers pour voir ce qui donne les meilleurs résultats. Bien sûr ce n'est pas aussi simple que ça car il y aura des spécificités liées aux tailles de génomes, au type de séquences (paired-ends ou single-end), aux type de données (RNA-seq, ChIP-seq, ...) mais on pourrait tout au moins fournir quelques indications pour les cas les plus fréquents d'usage.

Est-ce que ça intéresserait quelqu'un (ou quelques uns) ?

Jacques

Peut-être faut-il inviter quelques personnes clés à cette discussion ?

Bonjour Jacques,
nous avions fait il y a quelques années (avec un financement France-Génomique) un benchmark d'outils de mapping. Il est bien sur maintenant un peu dépassé et nous n'avons pas pu continuer l'effort engagé alors, mais cela nous a permis de mieux comprendre les limites de certains outils, et la difficulté de l'exercice de comparaison. Nous sommes évidemment interessé par la mise en place d'une comparaison d'outils.
https://www.liebertpub.com/doi/10.1089/cmb.2012.0022

J'avais noté quelques pointeurs plus récents, notamment coté Elixir, mais je ne les ai pas sous la main.

En fait ce qui serait le plus utile est de pouvoir récupérer les cas d'études (données, workflows) et les faire tourner sur l'infra IFB-core-cluster. Ca fera déjà un point de départ, et on pourra sans doute facilement ajouter les outils plus récents que votre benchmark.

Comment aviez-vous fait pour gérer le benchmarking ? Avec des workflows ? Aviez-vous des scripts pour analyser les résultats ? Tout cela est-il recyclable et adaptable ?

Un petit commentaire: le mappeur optimal peut varier selon la source d'échantillon, la taille des reads, les éventuels dommages à l'ADN et la distance phylogénétique entre les reads et le génome de référence. Un benchmarking pour les conditions standards pour les applications les plus courantes serait assez redondant avec ce qui a déjà été fait, un benchmarking dans des conditions plus extrêmes et diverses me paraitrait plus original, mais serait assez chronophage.

Benchmarking est sans doute un trop grand mot pour ma petite idée : il s'agirait plutôt de calibration. Sur l'infra qu'on offre aux usagers, comment éviter que chacun teste 3 ou 4 read mappers avec des paramètres pas forcément optimaux avant d'en choisir un. Certes, rien n'empêche de pousser l'étude un peu plus loin en testant des conditions atypiques, mais dans un premier temp l'idée serait de présenter un petit tableau indiquant combien de temps cela prend pour mapper 10M reads sur différents génomes, avec les read-mappers les plus populaires (hisat2, star, tophat, bowtie2) pour des types de données les plus courants (RNA-seq, ChIP-seq, variants) avec les génomes les plus utilisés (Mus musculus, Drosophila, C.elegans, Arabidopsis, Saccharomyces, E.coli).

Et pile poil un article qui sort sur le sujet :wink: