Bonjour,
Notre hébergeur doit réaliser une maintenance électrique le lundi 5 février 2024 comme indiqué via le bandeau:
Arrêt électrique de l'IDRIS le Lundi 5 février 2024
Ce qui nous contraint a arrêter toute l'infrastructure le vendredi 2 février.
En conséquence, les jobs longs qui devrait seront toujours running
à cette date sont bloqués (PENDING, pour ne se lancer qu'après cet arrêt).
C'est ce que signifie (ReqNodeNotAvail, Reserved for maintenance)
dans la colonne NODELIST(REASON)
de squeue
.
Par défaut, sur la partition long, les jobs ont par défaut un temps d’exécution de 30j.
Ce qui est le cas pour vos jobs.
Si les jobs doivent vraiment durer 30j alors il semble normal de les faire attendre pour les lancer après la coupure.
Sinon, je vous invite à préciser la durée d’exécution prévue via l'option --time
(ce qui me semble être une bonne pratique dans tous les cas).
Si votre job peut s'exécuter avant la coupure (i.e. une dizaine de jours), alors ils seront lancés.
Désolé pour ces désagréments.