OSError: [Errno 28] No space left on device + augmentation stockage

Bonjour,
Depuis quelques jours certains de mes jobs sont en erreurs avec
cette erreur dans les logs des jobs en question :

OSError: [Errno 28] No space left on device

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/__init__.py", line 695, in snakemake
    success = workflow.execute(
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/workflow.py", line 1017, in execute
    success = scheduler.schedule()
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/scheduler.py", line 470, in schedule
    run = self.job_selector(needrun)
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/scheduler.py", line 728, in job_selector_ilp
    self._solve_ilp(prob)
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/scheduler.py", line 766, in _solve_ilp
    prob.solve(solver)
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/pulp.py", line 1913, in solve
    status = solver.actualSolve(self, **kwargs)
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/apis/coin_api.py", line 137, in actualSolve
    return self.solve_CBC(lp, **kwargs)
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/apis/coin_api.py", line 153, in solve_CBC
    vs, variablesNames, constraintsNames, objectiveName = lp.writeMPS(
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/pulp.py", line 1782, in writeMPS
    return mpslp.writeMPS(self, filename, mpsSense=mpsSense, rename=rename, mip=mip)
  File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/mps_lp.py", line 250, in writeMPS
    with open(filename, "w") as f:
OSError: [Errno 28] No space left on device

Je suis sur le projet tonga_mag quand je lance ces jobs, mais l'erreur indique le projet abromics_metag sur lequel il me reste du stockage et le nombre de fichier est à la moitié du max.
Cependant je suis à la limite niveau stockage sur tonga_mag, l'erreur vient peut être d'ici. Dans tout les cas serait-il possible d'augmenter le stockage du projet tonga_mag de 10To car il me reste un certain nombre d'analyses à réaliser dessus ?
Par avance merci,
Hugo

Hello @hugo-lefeuvre, vous précisez quels chemins pour vos fichiers "out" et "err" (options -o et -e) ?
Si vous lancez le job depuis l'espace projet tonga_mag et qu'il est plein sans préciser les fichiers de sortie, slurm va essayer de les créer dans le répertoire actuel, l'erreur pourrait venir de là.

Hello,
Les fichiers out et err vont ici, à partir du répertoire où je lance ma commande /shared/projects/tonga_mag/soft/magneto_tonga :

--output=logs/cluster_logs/{rule}/{rule}-{wildcards}-%j.out
--error=logs/cluster_logs/{rule}/{rule}-{wildcards}-%j.err

Ca donne quoi si vous lancez depuis l'espace projet abromics_metag ?

J'avais oublié d'indiquer mon -A tonga_mag dans la commande sbatch, j'ai relancé et l'erreur ne s'est pas reproduite, est ce que ça pourrait venir de cela ?

A priori non :slight_smile:
Il n'y a pas de lien entre l'account SLURM -A tonga_mag et le "filesystem", le stockage lié à l'erreur initiale No space left on device

Mais si il n'y a plus d'erreur :wink:

D'accord, c'est donc le stockage sur le projet qui provoque cette erreur si je comprends bien, et pour le coup l'erreur est revenu sur l'un de mes jobs très récemment. J'ai augmenté de 5To le projet en début de semaine, il ne me reste déjà plus que 2To, est ce que c'est pour cela que l'erreur est revenu ? 2To me semble assez large quand même, mais est ce qu'il estime aussi le stockage en fonction des jobs qui tournent ?
J'avoue avoir du mal à estimer le stockage total dont je vais avoir besoin pour le reste de ce projet, je ne m'attendais pas à ce que cela prenne autant de place.

$ status_bars abromics_metag
abromics_metag [###-----------------]     231 /    1500 GB

Je ne vois pas l'augmentation de 5TB mais je ne vois pas non plus de saturation.

Je soupçonne une saturation de /tmp

Peux-tu appliquer ces recommendations :

https://ifb-elixirfr.gitlab.io/cluster/doc/troubleshooting/#slurmrstudio-tmp-no-space-left-on-device-error-fatal-error-cannot-create-r_tempdir

?

PS : as-tu les noms des jobs qui ont présenter cette erreur, que je puisse voir si en effet le /tmp est saturé ?

Alors oui en effet car le projet en question est tonga_mag, je ne fais rien tourner en ce moment sur abromics_metag. Je vais appliquer ces recommandations.
Je n'ai plus les jobs qui m'ont posé problème les semaines passées mais celui qui m'a donné l'erreur aujourd'hui est le suivant JOBID : 41642185

J'ai revérifié mais j'ai déjà un répertoire tmp dans mon projet où les fichiers temporaires sont redirigés : /shared/projects/tonga_mag/soft/magneto_tonga/tmp, donc je ne suis pas sur que le problème vienne de la saturation de /tmp.

Le node 66 sur lequel a tourné ton job avait un /tmp saturé.

Peut-être que ton job n'y écrit rien mais un full à 100% provoque des soucis parfois dès la connexion.
Nous sommes en train de travailler là dessus pour que ça n'arrive plus.

Donc, je conclurais par un "pas de chance" :slight_smile:

1 « J'aime »