Problème import torch gpu-node_02

Bonjour @nc-support ,

J'ai un problème quand je lance mon script dans le GPU node 02. J'ai ce message d'erreur : Traceback (most recent call last):

  File "/shared/ifbstor1/home/vprevost/flaxnet/P2Pnet/train.py", line 7, in <module>
    import torch
  File "/shared/ifbstor1/software/miniconda/envs/python-pytorch-tensorflow-3.9-1.11.0-2.6.2/lib/python3.9/site-packages/torch/__init__.py", line 199, in <module>
    from torch._C import *  # noqa: F403
ImportError: /shared/ifbstor1/software/miniconda/envs/python-pytorch-tensorflow-3.9-1.11.0-2.6.2/lib/python3.9/site-packages/torch/lib/libtorch_cpu.so: undefined symbol: iJIT_NotifyEvent
srun: error: gpu-node-02: task 0: Exited with exit code 1

J'ai bien effectué un module load python/3.9. De plus cela fonctionnais très bien vendredi.

Bonjour,

Pour tester, pouvez-vous renommer votre dossier local de package python et relancer votre script ?

mv ~/.local/lib/python3.9/site-packages/ ~/.local/lib/python3.9/site-packages.backup.2024-04-10

# inversement pour revenir à la normale

Pouvez-vous nous indiquer le chemin de votre script ?

J'ai renommé mon dossier local et cela ne change pas.

Le chemin de mon script : /shared/projects/flaxnet/flaxnet/P2Pnet/train.py

mon sbatch pour exécuter : /shared/projects/flaxnet/flaxnet/P2Pnet/launch_flaxnet.sh

Bonjour,

Je rencontre le même problème, à la différence près que j'effectue module load python/3.7.
Tout fonctionnait bien hier pour ma part.

Bonjour,

Nous avons tenté de corriger le problème sur les modules python 3.7 et 3.9. Pouvez-vous vérifier si pytorch fonctionne à nouveau normalement ?

Julien

Bonjour,

Pour ma part je retrouve toujours le même problème.

Bonjour,

Je rencontre toujours le même message d'erreur également.

Kevin

Bonjour Kevin,

Il semble que la nouvelle version du package mkl entre en conflit avec pytorch. Je viens de faire un downgrade de mkl comme indiqué ici ImportError `undefined symbol: iJIT_NotifyEvent` encountered when MKL 2024.1 is installed. · Issue #123097 · pytorch/pytorch · GitHub

Pouvez-vous faire un nouvel essai ?

Julien

1 « J'aime »

Bonjour Julien,

Ça refonctionne avec le module python 3.9.
Cependant j'ai encore le même problème avec le module python 3.7.

Merci pour votre aide

Kevin

Merci pour votre retour.
Je viens d'appliquer le même correctif sur le module python 3.7.

Merci beaucoup pour votre aide et votre réactivité.
Bonne journée.

merci pour votre aide