Workflow4metabolomics - variable MetaData

msalvia · Juin 28, 2023, 9:26

Bonjour,

J'ai une question concernant la Variable MetaData que l'on obtient sur W4M après les différents traitements. Cette question concerne les colonnes qui suivent la colonne npeaks correspondant aux différents groupes que l'on a "créé".

Je pensais que les chiffres trouvés dans ces colonnes correspondaient au nombre d'échantillons de ce groupe où l'on retrouve la variable . Or, en regardant cette variable sur ma DataMatrix, je m'aperçois que dans beaucoup de cas elle est présente dans plus d'échantillons de ce groupe par rapport à ce qui est indiqué dans la colonne de ce groupe de la Variable MetaData.
Y a t-il un autre paramètre qui est pris en compte, par exemple une valeur seuil d'aire (il faudrait que l'aire de la variable soit supérieure à un certain seuil pour la comptabiliser dans la colonne de mon groupe de la Variable MetaData?)? Ou autre chose?
Aussi, la valeur de npeaks ne correspond pas à la somme des valeurs de mes colonnes groupes? (l'explication est peut-être corrélée avec la 1ère question)

J'espère que ma question est assez claire.
Je vous remercie par avance de votre réponse.
Bien cordialement,
Marie-Virginie Salvia.

melpetera · Juin 28, 2023, 9:53

Bonjour,

Pour les colonnes après npeaks, il s'agit bien du nombre d'échantillons au sein des groupes dans lesquels la variable est retrouvée. La différence peut venir de l'utilisation de fillChromPeaks. En effet, dans la variableMetadata, les colonnes font référence à l'état des détections à la sortie du groupChromPeaks, alors que la dataMatrix en sortie de fillChromPeaks se voit justement complétée, à minima pour une partie pour lequel cela a été possible, de valeurs qui étaient initialement absentes. D'où un nombre d'échantillons "avec valeurs" en sortie de fillChromPeaks dans la dataMatrix plus grand que les indications dans la variableMetadata.

Concernant la colonne npeaks, il y a ici une subtilité : il ne s'agit pas d'un nombre d'échantillons, mais d'un nombre de pics, tels qu'on peut les voir sous forme de "points" dans le pdf de sortie de groupChromPeaks. Ainsi, si pour pour un peakgroup donné (i.e. une ligne d'ion dans la variableMetadata, i.e. un carré gris dans le pdf de groupChromPeaks) il y a exactement un pic par échantillon dans lequel l'ion est trouvé, npeaks sera exactement le nombre d'échantillons dans lequel il est (et donc la somme des colonnes groupées). Cependant, si dans au moins un échantillon il y a plusieurs pics (i.e. plusieurs points sur le pdf) qui sont associés à l'ion final (le carré gris), alors de fait la valeur de npeaks sera plus importante que le nombre d'échantillons dans lequel l'ion est trouvé (donc plus grand que la somme des colonnes groupes).

Cela vous aiguille-t-il ?
N’hésitez pas préciser vos points de doute si jamais des explications supplémentaires sont nécessaires.

Cordialement,
Mélanie

msalvia · Juin 28, 2023, 10:24

Rebonjour,

Merci beaucoup pour votre retour très rapide.

Après le fillpeaks, on peut considérer que les nouvelles valeurs intégrées sont bien dans les échantillons ou c'est plutôt du bruit de fond qui est intégré (et dans ce cas on peut se fier à la valeur dans les colonnes groupes de la Variable MetaData)?

Encore merci et très bonne journée.
Bien cordialement,
Marie-Virginie Salvia.

melpetera · Juin 29, 2023, 9:41

Bonjour,
Cela va dépendre de la qualité de l'extraction initiale des pics (on peut toujours avoir "manqué" des pics dans des échantillons où ils sont particulièrement petits par exemple), mais globalement fillpeaks a plutôt vocation à compléter avec un bruit de fond à une échelle adaptée je dirais.
Personnellement, je peux être amenée à utiliser les deux informations (colonnes groupes comme proportion de 0 après fillPeaks), ça va dépendre des utilisations/objectifs.
Mélanie

msalvia · Juin 29, 2023, 9:54

Bonjour,

Merci beaucoup pour votre réponse.

Bonne journée,

Très cordialement,

Marie-Virginie Salvia.

yguitton · Juin 29, 2023, 1:10

Bonjour

Fillpeaks est une fonction qui essaye de retrouver des signaux qui auraient été manqués lors du peakpicking et si dans nombre de cas elle fonctionne bien il est aussi possible qu'elle récupère plus de bruit que de signal réel et on peut se retrouver avec des valeurs d'aires sous courbe après fillpeaks largement supérieures à celle des vrais pics.

Concernant la colonne npeaks, sa définition est : "**npeaks**": the total number of peaks assigned to the feature.
Ainsi, lorsque vous avez une valeur qui dépasse le nombre d'échantillons réels, l'explication est à l'étape de group (alignement) où des features (couple RT m/z) détectés dans un même échantillon se retrouvent fusionnés en une seule feature à l'étape de group. Si ce phénomène se produit pour différents pics dans plusieurs échantillons alors ce nombre peux rapidement grandir. Il faut alors s'interroger sur les paramètres de peakpicking initiaux et/ou sur ceux de group. Soit le peakpicking est trop stringent et "découpe " des pics en plusieurs features (plusieurs lignes dans le tableau de sortie de l'étape findchrompeaks , soit le grouping est trop laxiste et aligne plusieurs feature sous une seule alors qu'il a de fait plusieurs pics qui devraient être séparés les uns des autres.
Vous pouvez le voir si vous cochez la case 'Get a list of found chrom peaks" dans la section avancée de findChromPeaks

Bonne journée
Yann

msalvia · Juin 29, 2023, 1:24

Bonjour Yann,
Merci beaucoup pour toutes ces explications.
Bon après-midi,
Marie-Virginie.