MOFA et normalisation des données

Bonjour,
Je cherche des conseils relatifs à la normalisation des données avant d'utiliser le model MOFA,

Nous avons des jeux de métabolomiques et de transcriptomiques à intégrer sur des échantillons (4 conditions x 6 bio replicats x 2 expériences)

Nous avons utilisé une normalisation par facteur, aligné sur le 3eme quartile de tous les échantillons, plus une transformation log2, de la même manière pour les deux types de données omics.

Comment savoir si cette normalisation est pertinente ? On nous a demandé si c'était correct/judicieux de normaliser par les échantillons plutôt que pas composés/gènes notamment pour les métabolites sachant que chaque un n'est pas forcément sur la même unité de quantification.

Qu'en pensez vous ? Qu'est ce qu'il se fait habituellement ?

Merci d'avance
Marina

Bonjour Kafka,

MOFA est basé sur une analyse factorielle multiple je crois donc sur la variance.
Pour des données de types comptages (tes 2 omics) voici les recommandations que tu trouve sur le github :

Count data: using a poisson likelihood. Importantly, the use of non-gaussian likelihoods require further approximations and are not as accurate as the gaussian likelihood. Hence, if your data can be safely transformed to match the gaussian likelihood assumptions, this is ALWAYS recommended. For example RNA-seq data is expected to be normalised and modelled with a gaussian distribution, do not input the counts directly.

Il faut faire attention à la différence de dimension entre tes 2 tables.

Pour ce qui est des métabolites si ils ne sont pas sur la même unité de quantification une "normalisation" par métabolites sera plus adapté pour éviter que la variance de cette table soit du aux différentes unités. Es ce qu'une réduction (avec la mediane) ne suffirait pas à correspondre aux recommandations ?

J'espère avoir aider,

Bonne journée,

Hello Lucie,
Merci beaucoup pour ta réponse; et conseils.
les log2 donnaient déjà une distribution en cloche type normale (tout gènes confondus pour chaque échantillon) mais j avais pas fait le test stat. Pour les Métabolites j'avais testé la distribution composé par composé...

Il faut faire attention à la différence de dimension entre tes 2 tables.

Que veux tu dire par là ? Est ce que le fait de prendre uniquement la liste de gènes différentiellement exprimés pour une comparaison donnée ne suffit pas à réduire suffisamment les dimensions (environ 2500 gènes pour 130 métabolites par exemple est ce que ça te parait aberrant ) ?
merci pour ta réponse,
bon aprem

Bon si je voulais rester anonyme c'est foutu :stuck_out_tongue_winking_eye:

J'ai fais cette précision car c'est quelque chose que l'on doit avoir en tête au moment de l'interprétation des résultats. Il est possible qu'une grande partie de la variance que tu analyses soit "porté" par ta plus grande matrice uniquement parce qu'elle est plus grande et non pas parce que l'autre n'apporte rien. Ça n'est pas une contre indication à l'utilisation de ces méthodes.

Mofa te propose une représentation du R² de chaque dimension pour toutes les omics c'est à ce moment là que tu pourras avoir une idée sur ta statégie (réduction aux DEGs) je pense.

A + dans le bus,

Ahah oué mais y a ton nom, mince.

super cool pour tes indications en tout cas,
merci !
A + j vais digérer les infos.
Kafka :wink: