Bonjour à tous,
Pour ceux que ça intéresse, j'ai testé le pipeline dragen-gatk (issu de la collaboration entre le broad institut et illumina). Il n'est pas encore disponible sous forme de pipeline wdl mais il y a tous les outils nécessaires pour le faire tourner dans les dernières versions de gatk.
Je l'ai testé sur l'échantillon HG001 (à partir d'un séquençage sur novaseq en pcr Free en accès libre ici ).
J'ai ensuite utilisé hap.py pour faire le benchmark à partir du dernier vcf de référence de cet échantillon disponible sur le GIAB.
Voici les résultats :
Recall:
SNP: 0.993947
INDEL: 0.990813
Precision:
SNP: 0.995265
INDEL: 0.993974
F1 score:
SNP: 0.994606
INDEL: 0.992391
Comme vous pouvez le voir les résultats sont particulièrement bon.