Incident IFB Core Cluster - stockage (Bas adress, No space left)

Bonjour,

Nous subissons depuis quelques jours des erreurs sur notre stockage qui se traduisent par des sorties du type: "Bad address" ou "NoSpaceLeftError: No space left on devices."
La connexion ou l'utilisation des services (cluster, JupyterHub, RStudio, etc) s'en trouvent fortement impactés.

Nous travaillons actuellement avec le support pour identifier le problème et trouver une solution, même temporaire.

Nous mettrons ce fil à jours pour vous tenir informé.

Bonjour,

j'ai vu qu'il y avait 2 post d'erreur bad adress.
J'ai le même problème visiblement. Je ne peux pas transférer de fichiers vers le serveur et mon job du week-end a été stopé avec des erreurs de type

MSG: Could not write file 'pan_genome_sequences/tcyP.fa.sorted.fa': Bad address
STACK: Error::throw

ce matin j'essaye d'ouvir geany et je ne peux pas ...
MoTTY X11 proxy: Authorisation not recognised
Geany: cannot open display

Merci pour votre retour

Chloé

Bonjour,

J'ai encore un pb pour me connecter à RStudio ...

J'ai un premier message : Project '/shared/projects/motion/Motion/Motion.Rproj' could not be opened: the project directory is not writeable. Je mets ok et j'ai le second message : R session ended. Je mets start new session, et le premier message revient, ect...

J'ai supprimé les dossiers .rstudio et R mais c'est toujours pareil.. Je ne comprends pas...

@Francois @nc-support @jvanhelden
J'ai le même problème. Je ne peux copier aucun fichier. Ça dit

cp: cannot create regular file : No space left on device

Mais lorsque je vérifie l'espace disque disponible avec "df -k", je n'ai que moins de 15 % d'utilisation.

Pourriez-vous m'aider à le réparer s'il vous plaît?

Merci beaucoup.
Ruel

Bonjour,

J'ai la même erreur: "bad adress" depuis vendredi
Tous les opérations sur le disque se termine la la précédente erreur (rm, cp, mkdir..)
De plus la création d'environnement conda personnalisé n'est pas possible et se termine par une erreur " NoSpaceLeftError: No space left on devices."
A noter que lors de l'identification sur le cluster j'ai cette erreur "/usr/bin/xauth: error in locking authority file". peut être tous problèmes vienne de cette dernière erreur?.

Merci pour votre contributions/aide.

[update][lundi 28/02 17h30]

Malheureusement, l'incident est toujours en cours et nous n'avons pas de visibilité sur le rétablissement.
Tous les calculs et services sont impactés.

Merci de nous tenir informés, @dbenaben

Bon courage à l'équipe et merci pour vos efforts pour remettre l'infra en route.

Bonjour,

Depuis hier je ne peux plus accéder au serveur via JupyterLab, j'ai des messages "Pending in queue" qui débouchent sur "Spawn failed: timeout", ce serait lié au même problème ?

Merci d'avance pour votre aide !
Kévin

Bonjour,

L'incident est à priori résolu (grâce au boulot de @gseith et @jhaessig).

Les services (cluster, JupyterHub, Galaxy, etc.) sont de retours mais nous continuons à surveiller tout ça et à analyser le problème.

Vos jobs ont probablement été impactés et nous vous invitons à les vérifier, voire à les relancer.

Désolé pour ces désagréments

2 « J'aime »

En effet Kévin, c'était lié à l'incident.

Merci à la task force NNCR pour avoir ressuscité le cluster !

Jacques

Merci beaucoup pour votre travail :raised_hands:

Bonjour,

j'ai à nouveau l'erreur "mauvaise adresse" quand je veux créer un dossier ou "Aucun espace disponible sur le périphérique" quand je veux créer un fichier.

Merci par avance pour votre aide.

Quentin

Bonjour,

J'ai également le message "Warning : waiting for server to resume ..." lorsque je souhaite importer des datas dans W4M. Les outils (generic filter; etc) sur Galaxy ne fonctionnent pas non plus.

Merci d'avance

Ludovic

Bonjour,
J'ai également l'erreur bad address sur rstudio.
Merci d'avance,
Mathilde

Bonjour,

J'ai moi aussi un soucis pour enregistrer la modification de mes fichiers sur le serveur.
Mais avant cela, lors de la connexion ssh ssh -XC cchevalier@core.cluster.france-bioinformatique.fr, j'obtiens en première ligne

##   L'équipe de support Cluster IFB Core                                  ##
#############################################################################
/usr/bin/xauth:  timeout in locking authority file /shared/home/cchevalier/.Xauthority

Si je souhaite créer un nouveau fichier, j'ai l'erreur Bad Address

ifb:~$ touch test
touch: impossible de faire un touch « test »: Mauvaise adresse

Et si je souhaite modifier un fichier, je suis dans l'impossibilité d'enregistrer les modifications (dans nano:

Erreur lors de l'écriture de test : Aucun espace disponible sur le périphérique

A noter que nano test créera un fichier, s'il n'existait pas auparavant.
Un peu plus de précisions:

ifb:~$ nano test2
# j'ai quitté nano sans enregistrer
ifb:~$ ls
mothard  R  test  test2  user_guides
ifb:~$ rm test*
rm: impossible de supprimer « test »: Mauvaise adresse
rm: impossible de supprimer « test2 »: Mauvaise adresse
ifb:~$ ls
mothard  R  user_guides

En espérant que ces informations pourront vous aider.
Céline

Bonjour à tous,

Désolé pour ce retour un peu tardif, nous avons rencontré à nouveau le bug sur le stockage qui bloque les écritures (d'où les erreurs et les messages du style Aucun espace disponible sur le périphérique).
Cela a été de nouveau résolu. Merci @gseith pour l'intervention.

Nous continuons à surveiller et devrions mettre à jours le stockage (pour éviter ces bugs) lors de l’interruption de service prévue du 4 au 6 avril.

Bonjour,

A nouveau des difficultés avec le stockage, nous continuons à surveiller et à remonter le service.

Et de nouveau résolu (au moins avant que ça retombe)...

Le bug rencontré est assez aléatoire et nécessite une mise à jour de la solution.
Cette mise à jour est pour l'instant programmé début avril.