Install MMSEQ2 and formatting popular DBs

Bonjour Guillaume,

Vous nous ennuyer pas du tout.
Pour des versions en développement, en effet, il me semble préférable de compiler vous-même et pour vous le logiciel sur le cluster.

Il suffit de suivre exactement la même méthode en préfixant les commandes de compilation par srun.
Ces travaux de compilation se feront alors sur des nœuds de calcul (et pas sur le nœud de login).
On peut aussi préciser à srun les options Slurm comme --cpus-per-task=4 pour avoir plusieurs CPU.
Dans notre cas, cela donne:

srun git clone https://github.com/soedinglab/MMseqs2.git
cd MMseqs2
mkdir build
cd build
srun cmake -DCMAKE_BUILD_TYPE=RELEASE -DCMAKE_INSTALL_PREFIX=. ..
sun --cpus-per-task=4 make -j 4
srun make install

MMseqs2 est alors compilé et accessible (en précisant le chemin):

./bin/mmseqs version
e10238de0a096d98ef78e41d91711cc0bd07a205

Dites-nous signe si vous avez besoin de plus d'aide.

Bonne après-midi

Bonjour la team

Je remarque que les bases de données NR, uniprot, uniref installées sur le cluster commence à dater.
Serait il possible de faire une mise à jour et de les formater pour les softs les plus utilisés (BLAST, MMSEQS,DIAMOND,etc.)
JE veux bien contribuer de ces manips pour vous décharger si vous me donnez droit d'écriture dans le répertoire bank.
A+
Guillaume

  • [X] /shared/bank/nr/nr_2020-7-19/mmseqs

Bonjour @Guillaume,

J'ai refait le tour des banques et indexes demandés. Et je pense qu'on est à jour.
Désolé pour le manque de réactivité.

Oh joli, mmseqs2 déployé avec ses index, ça c'est tip top !
Dans le temps, il fallait indexer sur le même type de machine que là où on faisait ensuite tourner les searchs, sinon ça crashait/swapait... Comme je crois comprendre du fil de discussion que les BD mmseqs2 semblent indexées sur un noeud "fat RAM", @Guillaume est-ce que tu joues avec les paramètres type --split-memory-limit ou --compress pour contenir les besoins en RAM lors des search ?
Bonne journée !

Salut Pascal

non je n'ai pas joué avec ces parametres. Je fais tout tourner sur bigmem (pour NR and co.), y compris indexage car les autres nœuds ne sont pas assez dimensionnés. Ca passe crème :wink: Du coup je n'ai pas été confronté au problème de crash que tu évoques.
A+
G

1 « J'aime »

Bonjour,

J'ai des problèmes pour faire tourner l'outil à cause des DBs (pour la taxonomie des contigs). Il y a des fichiers manquants dans les dossiers mmseqs de nr par exemple. Ce n'est pas à jour aussi car il faut aller dans des dossiers plus anciens (non current).

Je vais tester un autre outil (CAT) qui m'a l'air plus simple d'utilisation mais je tenais à vous dire que je ne peux pas faire tourner l'outil avec l'état actuel des DBs.

Merci

Bonjour
pour ma part, je fais des copies locales des DBs récentes car trop compliqué de demander des mises jours à l'équipe admin
G+

1 « J'aime »