Bonjour,
Depuis quelques temps j'ai systématiquement la même erreur que je n'avais pas avant lors de l'exécution de mpirun.
> ABORT: failure.cpp(22): Invalid cpuinfo: 0 128 2
> [cpu-node-97:1892789] PMIX ERROR: UNREACHABLE in file server/pmix_server.c at line 2193
La commande que je lance :
mpirun -oversubscribe -n "$((TASK+1))" pegasus-mpi-cluster --keep-affinity "${dag}"
J'ai essayé différente combinaison dans la demande de ressources node, task, cpu mais j'ai toujours la même erreur.
Est-ce que quelqu'un aurait une idée de ce que je pourrais faire ?
Oups, désolé d'être passé à côté de votre demande.
ping @team.ifbcorecluster , une idée ?
Je retente de faire monter ce sujet car je suis toujours bloqué...
Je n'ai pas d'idée sur l'erreur rencontrée mais je me demande s'il est vraiment opportun de faire tourner des codes MPI sur le Core Cluster de l'IFB. MPI demande des optimisations, librairies, hardwares que l'on aura du mal à adresser (tout au moins qui ne sera probablement pas optimal).
Avez-vous regarder du côté des mésocentres ?
Les machines sont normalement adaptés a faire tourner ces codes et vous aurez peut-être plus de retour. Ces centres, un par région, sont ouverts et dédiés à la communauté de l'enseignement et de la recherche.
https://calcul.math.cnrs.fr/pages/mesocentres_en_france.html