Bonjour,
Depuis quelques jours certains de mes jobs sont en erreurs avec
cette erreur dans les logs des jobs en question :
OSError: [Errno 28] No space left on device
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/__init__.py", line 695, in snakemake
success = workflow.execute(
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/workflow.py", line 1017, in execute
success = scheduler.schedule()
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/scheduler.py", line 470, in schedule
run = self.job_selector(needrun)
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/scheduler.py", line 728, in job_selector_ilp
self._solve_ilp(prob)
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/snakemake/scheduler.py", line 766, in _solve_ilp
prob.solve(solver)
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/pulp.py", line 1913, in solve
status = solver.actualSolve(self, **kwargs)
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/apis/coin_api.py", line 137, in actualSolve
return self.solve_CBC(lp, **kwargs)
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/apis/coin_api.py", line 153, in solve_CBC
vs, variablesNames, constraintsNames, objectiveName = lp.writeMPS(
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/pulp.py", line 1782, in writeMPS
return mpslp.writeMPS(self, filename, mpsSense=mpsSense, rename=rename, mip=mip)
File "/shared/projects/abromics_metag/conda/envs/magneto/lib/python3.10/site-packages/pulp/mps_lp.py", line 250, in writeMPS
with open(filename, "w") as f:
OSError: [Errno 28] No space left on device
Je suis sur le projet tonga_mag quand je lance ces jobs, mais l'erreur indique le projet abromics_metag sur lequel il me reste du stockage et le nombre de fichier est à la moitié du max.
Cependant je suis à la limite niveau stockage sur tonga_mag, l'erreur vient peut être d'ici. Dans tout les cas serait-il possible d'augmenter le stockage du projet tonga_mag de 10To car il me reste un certain nombre d'analyses à réaliser dessus ?
Par avance merci,
Hugo
Hello @hugo-lefeuvre, vous précisez quels chemins pour vos fichiers "out" et "err" (options -o
et -e
) ?
Si vous lancez le job depuis l'espace projet tonga_mag
et qu'il est plein sans préciser les fichiers de sortie, slurm va essayer de les créer dans le répertoire actuel, l'erreur pourrait venir de là.
Hello,
Les fichiers out et err vont ici, à partir du répertoire où je lance ma commande /shared/projects/tonga_mag/soft/magneto_tonga
:
--output=logs/cluster_logs/{rule}/{rule}-{wildcards}-%j.out
--error=logs/cluster_logs/{rule}/{rule}-{wildcards}-%j.err
Ca donne quoi si vous lancez depuis l'espace projet abromics_metag
?
J'avais oublié d'indiquer mon -A tonga_mag dans la commande sbatch, j'ai relancé et l'erreur ne s'est pas reproduite, est ce que ça pourrait venir de cela ?
A priori non
Il n'y a pas de lien entre l'account SLURM -A tonga_mag
et le "filesystem", le stockage lié à l'erreur initiale No space left on device
Mais si il n'y a plus d'erreur
D'accord, c'est donc le stockage sur le projet qui provoque cette erreur si je comprends bien, et pour le coup l'erreur est revenu sur l'un de mes jobs très récemment. J'ai augmenté de 5To le projet en début de semaine, il ne me reste déjà plus que 2To, est ce que c'est pour cela que l'erreur est revenu ? 2To me semble assez large quand même, mais est ce qu'il estime aussi le stockage en fonction des jobs qui tournent ?
J'avoue avoir du mal à estimer le stockage total dont je vais avoir besoin pour le reste de ce projet, je ne m'attendais pas à ce que cela prenne autant de place.
$ status_bars abromics_metag
abromics_metag [###-----------------] 231 / 1500 GB
Je ne vois pas l'augmentation de 5TB mais je ne vois pas non plus de saturation.
Je soupçonne une saturation de /tmp
Peux-tu appliquer ces recommendations :
https://ifb-elixirfr.gitlab.io/cluster/doc/troubleshooting/#slurmrstudio-tmp-no-space-left-on-device-error-fatal-error-cannot-create-r_tempdir
?
PS : as-tu les noms des jobs qui ont présenter cette erreur, que je puisse voir si en effet le /tmp est saturé ?
Alors oui en effet car le projet en question est tonga_mag, je ne fais rien tourner en ce moment sur abromics_metag. Je vais appliquer ces recommandations.
Je n'ai plus les jobs qui m'ont posé problème les semaines passées mais celui qui m'a donné l'erreur aujourd'hui est le suivant JOBID : 41642185
J'ai revérifié mais j'ai déjà un répertoire tmp dans mon projet où les fichiers temporaires sont redirigés : /shared/projects/tonga_mag/soft/magneto_tonga/tmp
, donc je ne suis pas sur que le problème vienne de la saturation de /tmp.
Le node 66 sur lequel a tourné ton job avait un /tmp saturé.
Peut-être que ton job n'y écrit rien mais un full à 100% provoque des soucis parfois dès la connexion.
Nous sommes en train de travailler là dessus pour que ça n'arrive plus.
Donc, je conclurais par un "pas de chance"
1 « J'aime »