Bonjour,
Je rencontre des difficultés à utiliser la partition gpu-node-02 avec le module dorado/0.9.0 (pour du basecalling de données de séquençage nanopore) : dorado semble échouer à trouver la carte GPU.
Message d'erreur de dorado dans les logs de SLURM :
[2025-05-17 09:25:12.797] [warning] Failed to initialize NVML: Driver/library version mismatch, retrying in 1s...
[2025-05-17 09:25:13.797] [warning] Failed to initialize NVML after 10 seconds: Driver/library version mismatch
[2025-05-17 09:25:13.797] [warning] CUDA_VISIBLE_DEVICES contains more device ids (1) than devices found by NVML (0).
[2025-05-17 09:25:13.797] [error] Invalid CUDA device index '0' from device string "cuda:0", there are 0 visible CUDA devices.
Cela ressemble à un problème d'installation du driver nvidia. J'ai testé avec deux profiles dans un script que je lance avec sbatch #SBATCH --gres=gpu:7g.40gb:1
et #SBATCH --gres=gpu:3g.20gb:1
. J'ai un test en cours sur un autre noeud GPU (dans la queue).
Je pense que ce sujet sur stackoverflow est pertinent.
Qu'en pensez-vous ?
Merci, bien à vous,