Demande d'accompagnement sur un projet de docking

bmartin · Avril 1, 2020, 2:47

Bonjour,

Je souhaite réaliser un criblage virtuel de 2 librairies de molécules de 6548 et 1862 composés, respectivement. Il s’agit de deux banques de mimétiques de substrat de deux enzymes virales retrouvées chez le SARS-CoV-2. Pour réaliser une étude robuste, je souhaite faire le docking de ces deux banques sur les protéines cibles des virus SARS-CoV-1 et 2, mais aussi différentes enzymes homologues chez d’autres virus et dans la cellule (16 cibles au total). Je voudrais utiliser deux algorithmes de docking pour réaliser l’étude et assurer les résultats. Pour cela, j’utilise les outils suivants : DockingApp et DockingApp RF. Au total, il s’agit donc de faire 16 fois le crible sur la librairie de 6548 composés et 16 fois le crible sur la banque de 1862 composés, le tout deux fois pour assurer les résultats. J'aurais donc besoin d'assistance et de puissance de calcul pour générer les fichiers de résultats de docking.

Merci d'avance pour toute l'aide que vous pourrez m'apporter.

Baptiste MARTIN

olisand · Avril 1, 2020, 3:32

Bonjour Baptiste,

Je suppose que tu es au déjà courant, mais pour ne rien laisser au hasard, j'ai entendu parler de cette étude massive : https://www.drugtargetreview.com/article/57052/using-virtual-screening-to-identify-coronavirus-treatments/
Certaines de tes molécules y ont peut-être été testées ?

Olivier Sand

bmartin · Avril 1, 2020, 4:09

Bonjour Olivier @olisand,

En effet, plusieurs études sont déjà en cours avec des supercalculateurs. Il est possible que les molécules que je souhaite tester soient en effet dans cette étude. Mon approche est malgré tout différente car je cible une activité spécifique du virus pour laquelle j'utilise deux banques de molécules qui sont des mimétiques des substrats de l'enzyme. Jusque là rien de très original. Cependant, je mène une étude croisée sur le même type d'enzyme chez d'autres virus et sur trois enzymes cellulaires (ce qui n'est pas fait dans les études à X millions de composés) afin d'avoir des informations sur la spécificité et potentiellement la toxicité. Avec un traitement statistique, je pourrai extraire ces informations à partir des hits obtenus et réfléchir à des perspectives de tests in vitro et d'optimisation chimique.

Cordialement,

Baptiste MARTIN

jvanhelden · Avril 2, 2020, 5:44

Quelques informations techniques. D'après notre discussion en visio, tu utilises les applications suivantes

DockingApp

Une application Java qui tourne sur tous les OS, et qui offre une l'interface visuelle pour une série d'outils

AutoDockTools-1.5.6
CADD-1.5.6
PMV-1.5.6
Vision-1.5.6

Le logiciel DockingApp se trouve ici;

La question est de savoir si on peut paralléliser les calculs sur un cluster ou sur une VM cloud, sachant que c'est une application java.

Parmi les pistes

Y a-t-il des options de parallélisation incluses dans DockingApp (threading ou job scheduler)
Dans le cas contraire, peut-on lancer les autres applications sans passer par l'interface visuelle (via une commande java avec des paramètres).

Nous pouvons solliciter nos collègues de bioinfo structurale pour évaluer ces solutions ou en proposer d'autres.

Cordialement,

Jacques

julien · Avril 2, 2020, 7:21

Bonjour,

DockingApp est à présent disponible sur le cluster. Nous allons installer le second outil dans la matinée.

DockingApp demande un nombre de CPU ainsi cela indiquerait qu'il est capable de "paralléliser" ses traitements.
C'est un outil graphique et je ne vois pas d'approche possible en ligne de commande permettant de s'appuyer sur SLURM pour paralléliser les traitements.

Julien

jvanhelden · Avril 2, 2020, 7:37

Super. Il faudrait donc proposer un protocole pour le lancer à distance en s'assurant qu'il tourne sur un noeud approprié + indiquer comment configurer (combien de CPU ?) et vérifier la charge pour s'assurer qu'il tourne effectivement sur le nombre de coeurs demandés (htop ?).

Comment fait-on pour le lancer ? Avec ssh -X, ou un client style x2go ?

Merci

Jacques

Francois · Avril 2, 2020, 7:49

oui avec ssh -X pour ceux qui sont sous linux ou mac

A priori pour windows, on est en train de reflechir à la possibilité d'utiliser mobaxterm

Francois · Avril 2, 2020, 7:58

Je double poste

@bmartin: est-ce que vous pouvez commencer a transférer des données qui nous permettrai de vérifier que l’installation de l'application fonctionne bien sur le cluster ?

Le répertoire cible est /shared/projects/docking_covid19/

Et pour le transfert, vous pouvez utiliser le logiciel Filezilla, une documentation et un exemple en vidéo se trouve ici:
https://ifb-elixirfr.gitlab.io/cluster/doc/data/#sftp-graphic-client

gildaslecorguille · Avril 2, 2020, 8:09

@bmartin
Penses-tu lancer plusieurs sessions de DockingApp en parallèle ?
Si oui, as-tu une idée du nombre souhaité pour que cela soit optimal ?

bmartin · Avril 2, 2020, 8:44

@gildaslecorguille
Ca serait l'idéal mais ce n'est pas une obligation. Je pense que pour être au plus efficace, 5 dockings en même temps par application serait l'idéal. Sinon on peut prendre le temps de les faire un par un.
Merci !

bmartin · Avril 2, 2020, 9:16

@Francois
Je viens de déposer tous les fichiers nécessaire pour l'étude. J'ai créé un dossier "proteins" avec les protéines cibles, un dossier "librairies" avec les librairies et un dossier "test" avec une protéine cible et un composé pour tester le logiciel. Si jamais il vous manque des éléments, n'hésitez pas.
Merci pour votre aide !

Francois · Avril 2, 2020, 9:54

Merci ! Je pose la question par principe, mais est-ce que vous êtes d'accord pour qu'on donne accès a vos données à certains membres de l’équipe support de l'IFB Core cluster ? Ceci afin de nous permetre de faire nos tests.

(En l'occurence, moi Julien et GIldas)

bmartin · Avril 2, 2020, 10:10

@Francois
Oui, aucun problème. Deux ou trois fichiers de structures protéiques doivent être rééditées pour qu'ils soient pris en compte lorsqu'il faut définir le binding domain. Normalement, toutes les structures doivent fonctionner si on considère l'ensemble de la structure.

tuffery · Avril 2, 2020, 11:21

Nous avons (en ligne) des outils de criblage (TiOpenDock et MTiOpenScreen - basés sur autodock) qui devraient convenir à votre projet (https://bioserv.rpbs.univ-paris-diderot.fr/services/MTiOpenScreen/)
MLGLTools est déjà installé/utilisé chez nous, nous pouvons tout à fait étudier le déploiement de votre pipeline spécifique sur notre infra. La parallelisation se fait généralement par distribution des composés sur les noeuds. Nous encapsulons tous nos logiciels dans des conteneurs docker.
Il s'agit ici de déploiement de logiciel sinon l'infrastructure en charge du criblage serait plutot ChemBioFrance (à laquelle nous émargeons aussi).

bmartin · Avril 2, 2020, 12:26

@tuffery
J'utilise DockingApp car l'interface Java permet une approche simplifiée du docking. N'étant pas informaticien, c'est un outil que j'ai trouvé pratique pour commencer à mettre au point mon étude de docking. Je suis preneur de tout conseil ou de tout autre outil peu-être plus performants. Je ne suis pas familiarisé avec les outils proposés ici mais si je peux être guider dans leur utilisation, je suis preneur.

tuffery · Avril 2, 2020, 2:10

Avant de faire du docking, il sera important de valider la qualité de la structure du recepteur. Si c'est un modèle, a priori, le docking est risqué. Dans tous les cas, je vous recommande de faire attention aux conformations des chaînes latérales.
Vous pouvez aussi comparer les résultats obtenus avec DockingApp sur ceux du serveur MTiOpenScreen (service en ligne auquel if faut fournir un 3D du recepteur, une liste de composés au format smiles ou sdf)

bmartin · Avril 2, 2020, 3:19

@tuffery
Dans l'ensemble des 16 cibles, je n'ai que 3 modèles de protéines. Ce sont des protéines très proches des autres cibles pour lesquelles les structures sont disponibles (co-cristallisées avec leur substrat). Ces modèles ont été validés par superposition de structure qui montrent que les domaines de binding sont conservés (intra-genre viral) ainsi que la conformation des chaines latérales.
Merci pour l'idée de comparer les résultats entre les différents logiciels. Dans la stratégie initiale, je souhaite comparer les résultats obtenus entre DockingApp et DockingApp RF qui ne reposent pas sur les mêmes algo. Je vais tester MTiOpenScreen pour voir si je peux également ajouter ces résultats à l'étude.

Francois · Avril 2, 2020, 3:29

La première application est prête.

Je crois que le logiciel mobaxterm ( https://mobaxterm.mobatek.net/ ) devrait vous permettre de vous connecter au serveur depuis windows et normalment par default il "forward" le X (il déporte l'affichage sur votre bureau)

ensuite en ligne de commande vous pouvez taper:

sinteractive --cpus=32
cd /shared/projects/docking_covid19/DockingApp/
./DockingApp.sh

Et si tout va bien alors ca devrait ouvrir l'application sur votre ordinateur avec l'execution deporté sur le cluster.

Si vous voulez bien tester et nous faire un retour de ce qui va ou pas, merci d'avance.

Et aussi un gros merci à @julien qui a fait tout le boulot

bmartin · Avril 2, 2020, 4:41

@Francois @julien
Un grand merci déjà pour toute votre aide ! J'ai bien téléchargé et installé Mobaxterm mais je ne trouve pas comment me connecter au serveur afin de pouvoir taper la ligne de code et tester l'application. Merci d'avance pour vos explications.

Francois · Avril 2, 2020, 4:51

A priori je dirais qu'il faut ouvrir une session, comme indiqué ici:

Choisir "SSH" comme type de connection
Et utiliser votre login et l'adresse: core.cluster.france-bioinformatique.fr

Le but étant d'avoir un terminal sur le serveur ou taper les commandes que j'ai indiqué:

(Si vous voulez bien ré-essayer pendant que j'essaye de trouver quelqu'un qui a un ordinateur sous windows )