Demande d'accompagnement sur un projet de docking

julien · Avril 2, 2020, 5:05

Voici quelques instructions plus détaillées :

Après avoir lancé MobaXterm, cliquez sur Session
Choisissez ensuite SSH
Dans le champs "Remote host" indiquez core.cluster.france-bioinformatique.fr
Cochez la case "Specify a username" et indiquez votre nom d'utilisateur du cluster
Cliquez sur "OK"
Le logiciel va vous demander votre mot de passe du cluster, tapez le (aucun caracètre ne s'affiche pas sécurité) puis appuyez sur "Entrée"

Vous êtes à présent connecté sur le cluster.

Vous pouvez à présent démarrez votre session de travail :

Tapez sinteractive --cpus=32 pour démarrer un session interactive sur le cluster et disposer de 32 coeurs
Votre mot de passe vous sera à nouveau demandé
Tapez la commande cd /shared/projects/docking_covid19/DockingApp/ pour vous déplacer dans le dossier d'installation de DockingApp pour votre projet
Tapez la commande ./DockingApp.sh pour lancer le logiciel

Julien

bmartin · Avril 2, 2020, 5:50

@julien @Francois
Tout fonctionne très bien. J'ai juste une dernière question pour être parfaitement au point et commencer le travail. Comment puis-je importer les différents fichiers que j'ai transféré (les deux banques de molécules et les cibles) vers les dossiers "resource" (cibles) et "input" (library) ? En tout cas merci beaucoup pour votre réactivité et l'accompagnement !

julien · Avril 2, 2020, 7:43

Super !
Etes-vous sûr qu'il est nécessaire de copier vos banques dans les dossiers "resource" et "input" ?
Il me semble que vous pouvez spécifier dans le logiciel un dossiers pour "Input target files" et "Input ligend".
Sinon, je vous recommande de copier les fichiers au bon endroit en utilisant simplement Filezilla comme vous l'avez fait aujourd'hui pour copier vos données sur le cluster.

Quelques questions supplémentaires :

Avez-vous une idée de la durée d'un run avec le logiciel ? Est-ce qu'il s'agit de quelques heures ? quelques jours ?
Savez-vous si en augmentant significativement le nombre de coeur alloué au logiciel vous pourrez obtenir des meilleurs performances ? (nous pouvons vous orienter vers un noeud de calcul disposant de 124 coeurs)
Avez-vous une idée de la RAM nécessaire au bon fonctionnement de vos traitements ? Par défaut vous ne disposez que de 2Go de RAM mais vous pouvez en réserver jusqu'à 3To sur notre plus gros noeud.

bmartin · Avril 3, 2020, 8:06

@julien
Je n'ai aucune idée du temps que ça va prendre. Je vais finir d'organiser l'étude pour faire les choses dans l'ordre. Je peux lancer un premier crible sur la banque la plus grande pour avoir une idée du temps d'un run. Je vous tiens au courant.

Par contre ce matin j'ai un problème avec MobalXterm. Lorsque j'ouvre ma session pour pouvoir taper les lignes de commande, je ne peux rien écrire... J'ai essayé de tout relancer depuis le début mais pas plus de succès.

julien · Avril 3, 2020, 8:23

Nous avons une panne temporaire. Le cluster sera à nouveau disponible dans quelques instants.

bmartin · Avril 3, 2020, 9:11

@julien
Je viens de lancer un premier screen. L'analyse d'une molécule sur un binding site défini prend environ 10 sec. Si on multiplie 10 sec par 6500 molécules pour 15 protéines, ça va faire long... Je peux essayer de réduire le nombre de cibles à tester de mon côté.

Francois · Avril 3, 2020, 9:43

Bonjour,

Ce serait possible de lancer un traitement qui devrait prendre une heure d’après vos estimations ?
Et bien sur nous prévenir quand il est lancé, ceci afin de nous permettre d'analyser les ressources utilisé et donc analyser comment on pourrait améliorer les choses.

Et deuxième point, est-ce que vous êtes disponible pour faire une viso conf,vers 14h par exemple,ou au pire à 17h ? Essentiellement pour nous expliquer comment vous utiliser ce logiciel et donc nous permettre de faire des tests de performance plus pertinent de notre coté.

bmartin · Avril 3, 2020, 10:24

@Francois
Bonjour, j'ai lancé une analyse sur les 6000 composés (à 16% d'avancement). Vous pourrez voir le programme tourner de cette manière. Faites moi savoir si je dois lancer une autre étude sur 100 composés pour avoir les résultats dans l'heure. Par contre, je donne une conférence à 14h donc je serai disponible plutôt aux alentours de 17h si c'est possible pour vous. Merci !

Francois · Avril 3, 2020, 10:50

Merci, du coup ca à l'air de bien utiliser les 32 coeur CPU alloué, on peux monter jusqu'a 54 en restant sur les serveurs "normaux", a priori ca devrait être plus rapide.

Je vais faire la modif pour autoriser plus de coeur, il faudra changer l'option de sinteractive

Si vraiment c'est encore trop lent on pourra passer sur bigmen qui a 128 CPU.

(Pour la visio je vois avec les autres et je confirme ou pas 17h)

Francois · Avril 3, 2020, 10:59

Du coup pour le prochain traitement vous pouvez utiliser:

sinteractive --cpus=54

Et nous dire si ça améliore la vitesse ou pas

bmartin · Avril 3, 2020, 11:59

@Francois
Super pour les 54 CPU. Je pense que ça suffira pour la suite. Ca me laissera le temps de traiter les résultats au fur et à mesure. Ca risque malgré tout de prendre 15 jours. Tenez moi au courant de ce que vous préférez suivant les demandes que vous préférez (allouer plus de puissance et aller plus vite ou prendre le temps).

Francois · Avril 3, 2020, 12:08

Nous on préfère rien du tout. On essaye de faire en sorte que chacun puisse faire ses calculs sans trop pénaliser les autres, mais pour le covid19, on peux sans souci accorder plus de ressource que d'habitude.
Donc j'ai envie de dire, que c'est plutôt a vous de nous dire si avec 54 cœur c'est suffisant ou pas

Concernant le visio conf, en faite ça va être compliquer pour 17h ce soir, du coup peut-être en début de semaine prochaine si c'est encore pertinent a ce moment la.

bmartin · Avril 6, 2020, 8:05

@Francois @julien

Bonjour l'équipe,
J'espère que vous allez bien. Je vous fais un retour suite à ce week-end. J'ai voulu avancé et j'ai lancé quelques runs. J'ai eu quelques problèmes.

le premier est que certains runs ne vont pas jusqu'au bout (98 molécules testées sur 100) ;
le second est que l'application semble fermer la session si je ne traite pas les résultats 15 minutes après la fin du run (ce qui me fait perdre les données) ;
depuis hier soir, je n'arrive pas à me connecter au serveur : après avoir tapé la commande sinteractiv --cpus=54, la session charge dans le vide mais rien ne se passe;
le dernier point concerne les logiciels DockingApp et DockingAppRF. Je ne peux pas copier/coller la colonne de résultats qui m'intéresse, je suis obligé de faire case par case. Pour 100 molécules, ça va mais quand je vais passer sur la banque de 6500 composés, j'ai moins apprécié. J'ai vu avec le développeur de l'application qui m'a confirmé qu'il n'y a pas cette fonctionnalité nulle part. Deux options possibles : soit il peut le faire et m'envoyer le nouveau dossier mais cela implique qu'il faille redéployer le logiciel, soit de votre côté vous pouvez rajouter cette fonction sur le logiciel ?

Sinon les runs se passent bien pour des banques relativement petites mais si je peux passer sur une capacité de calcul plus grande pour la banque ASINEX (6500 composés), je suis plus que preneur.

Je suis disponible pour échanger avec vous cet après-midi, demain après-midi, ou mercredi dans la journée.

Bonne semaine à tous et merci d'avance pour vos retours.

Baptiste

Francois · Avril 6, 2020, 8:44

Bonjour,

On a eu quelques souci sur le cluster, voir Accès Cluster Down?

On pourra probablement pas modifié l'application nous même sans les sources, le mieux c'est que le développeur fasse la modification et qu'on mette a jour l'application sur le cluster.

Et ok pour la capacité de calcul plus importante, on va vous donner accès a bigmem

gildaslecorguille · Avril 6, 2020, 8:49

@bmartin, tu peux peut-être tenter ça, si ça n'est pas déjà le cas :

My SSH connection freezes or drops out after N seconds of inactivity.

This is usually the result of a packet filter or NAT device timing out your TCP connection due to inactivity. You can check the "Enable SSH keepalive" box under "Settings" --> "Configuration" --> "SSH" tab.
Enabling this option will ensure that the connection is kept "fresh" in the device's connection table.

gildaslecorguille · Avril 6, 2020, 8:51

Je pense qu'il maîtrise mieux son code que nous. Donc nous pourrons déployer une nouvelle version du soft avec cette nouvelle fonctionnalité.

bmartin · Avril 6, 2020, 11:12

@gildaslecorguille
J'ai vu avec eux. Ils vont faire le développement nécessaire et il vont utiliser mon projet pour faire le test. Pour cela, je dois leur donner le système d'exploitation que j'utilise. Je vais leur communiquer les informations pour ma machine. Par contre, il faut que je leur communique également la version que vous avez utilisez pour le déploiement (système d'exploitation et version de Java) pour qu'on puisse le refaire avec l'update.

Merci !

Francois · Avril 6, 2020, 11:22

C'est l'openjdk v8, mais on peux mettre un plus recent si necessaire, les details:

java -version
openjdk version "1.8.0_112"
OpenJDK Runtime Environment (Zulu 8.19.0.1-linux64) (build 1.8.0_112-b16)
OpenJDK 64-Bit Server VM (Zulu 8.19.0.1-linux64) (build 25.112-b16, mixed mode)

L'os c'est lunix, en l'occurence Centos 7

bmartin · Avril 6, 2020, 1:22

Une solution est en cours de développement grâce à Patrick GUTERL de l'IPHC concernant l'extraction des résultats. Il travaille sur le développement d'un programme en Perl pour compiler les différents fichiers output (stockés dans le dossier "execution") pour en extraire les données sous format tab de façon à pouvoir les copier/coller dans un fichier Excel.

bmartin · Avril 7, 2020, 11:23

@Francois
Bonjour,
Je voulais savoir quand il sera possible d'accéder à bigmem ? C'est juste une histoire d'organisation et de priorisation du workflow de mon côté.
Merci d'avance pour l'info