SLURM job submission failed

Bonjour,
Depuis quelque temps je rencontre régulierement des problemes de soumission de job ou de visualisation du status avec toujours le meme message d'erreur:
SLURM job submission failed. The error message was sbatch: error: Batch job submission failed: Socket timed out on send/recv operation
Je ne suis pas le seul d'autre collègue ont parfois le message.

Bonjour Sébastien,

En effet, je constate également ce genre d'erreur.
On regarde...

Il y a ça aussi :

Submitted batch job 37542466
sbatch: error: Currently unable to load job state information, retrying: Socket timed out on send/recv operation
sbatch: error: Currently unable to load job state information, retrying: Socket timed out on send/recv operation
sbatch: error: Currently unable to load job state information, retrying: Socket timed out on send/recv operation
sbatch: error: Currently unable to load job state information, retrying: Socket timed out on send/recv operation

On a pu identifier quelques souçis (temps de réponse, bascule de ctrl, base slurm trop grosse).
On continue à travailler dessus, mais dites-nous si jamais ça continue