Phyml en mode multi-processeurs

J'essaie de faire tourner phyml en mode multi-processeurs sur le cluster avevc la commande phyml-mpi.

Je charge d'abord l'environnement conda où j'ai défini tous les outils.

cd ~jvanhelden/coronavirus_insertions
module load conda 
conda activate covid-19

et ensuite je lance la commande

srun --cpus=50  --mem=32GB   --partition=fast mpirun -n 50 phyml-mpi --input results/RBD_selected-plus-GISAID//RBD_selected-plus-GISAID_clustalw_gblocks.phy --datatype nt --bootstrap 100 --model TN93 --oversubscribe

J'obtiens

--------------------------------------------------------------------------
There are not enough slots available in the system to satisfy the 50
slots that were requested by the application:

  phyml-mpi

Either request fewer slots for your application, or make more slots
available for use.

A "slot" is the Open MPI term for an allocatable unit where we can
launch a process.  The number of slots available are defined by the
environment in which Open MPI processes are run:

  1. Hostfile, via "slots=N" clauses (N defaults to number of
     processor cores if not provided)
  2. The --host command line parameter, via a ":N" suffix on the
     hostname (N defaults to 1 if not provided)
  3. Resource manager (e.g., SLURM, PBS/Torque, LSF, etc.)
  4. If none of a hostfile, the --host command line parameter, or an
     RM is present, Open MPI defaults to the number of processor cores

In all the above cases, if you want Open MPI to default to the number
of hardware threads instead of the number of processor cores, use the
--use-hwthread-cpus option.

Alternatively, you can use the --oversubscribe option to ignore the
number of available slots when deciding the number of processes to
launch.
--------------------------------------------------------------------------
srun: error: cpu-node-26: task 0: Exited with exit code 1

J'ai essayé

  • avec et sans l'option --oversubscribe proposé dans le message d'erreur
  • en réduisant le nombre de CPUs à 25, puis 10 puis 5 puis 2 et j'ai toujours le même message d'erreur.

La commande tourne sans problème quand je mets n à 1 mais ce n'est plus vraiment la peine de disposer d'un cluster méga-puissant.

Quelqu'un a-t-il de l'expérience avec phyml-mpi sous slurm ?

Merci

Jacques

Bonjour Jacques,

Je connais pas bien phyml et suis débutant MPI (phyml-mpi est basé sur OpenMpi), il faut donc prendre ce que je dis avec des pincettes...

Openmpi est couplé nativement avec Slurm. Par défaut, il lancera donc autant de processus que de cœurs disponibles (Slurm positionne des variables d'environnement pour indiquer les ressources à utiliser). On est donc pas obliger de spécifier mpirun -n 50, on peut se contenter de mpirun tout cours (ou sinon mpirun -np $SLURM_NTASKS).
https://www.open-mpi.org/faq/?category=slurm

Par contre, mpirun et srun ne semble pas faire très bon ménage.
Par exemple, dans mes tests, srun -n 50 mpirun phyml-mpi lance 50 fois la commande (et c'est pas vraiment ce qu'on veut). D'après la documentation, on peut lancer directement l'application mpi via srun (par exemple srun -n 50 phyml-mpi), mais j'ai l'impression que ce n'est pas supporté par phyml.

Par contre, on peut utiliser d'autre syntaxes.

Comme salloc. Par exemple:

salloc -n 50 mpirun phyml-mpi --input results/RBD_selected-plus-GISAID/RBD_selected-plus-GISAID_clustalw_gblocks.phy --datatype nt --bootstrap 100 --model TN93

Ou via un script pour sbatch

#!/bin/bash

#SBATCH --job-name=phyml-mpi
#SBATCH --ntasks=50

module load phyml/3.3.20190909

mpirun phyml-mpi --input results/RBD_selected-plus-GISAID/RBD_selected-plus-GISAID_clustalw_gblocks.phy --datatype nt --bootstrap 100 --model TN93

Je suis pas sûr d'avoir encore toutes les billes. Mais j'espère que ça peut aider à avancer.
En tout cas la discussion reste ouverte.

PS: au passage, on a aussi résolu un problème (blocage firewall) qui bloquait les jobs MPI.

Bonne journée