Discordance entre les valeurs renvoyées par status_bars et sreport pour la consommation CPU?

Bonjour,

Je cherche à évaluer la consommation CPU globale à l'issu d'une formation (compte form_2021_29).

Voici ce que status_bars renvoie :

$ status_bars form_2021_29
/opt/status_bars/status_bars/status_bars: ligne 76 : [: form_2021_29 : opérateur unaire attendu
form_2021_29 [####################]  415119 /   10000 hCPU
           - [#######-------------]    1633 /    4500 GB
Update: 2022-07-08 10:00 - Your current default account is  - More info: status_bars --help

et sreport :

$ sreport -t hour Cluster AccountUtilizationByUser Start=2022-01-01 End=$(date --iso-8601)T23:59:59 Accounts=form_2021_29
--------------------------------------------------------------------------------
Cluster/Account/User Utilization 2022-01-01T00:00:00 - 2022-07-08T10:59:59 (16279200 secs)
Usage reported in CPU Hours
--------------------------------------------------------------------------------
  Cluster         Account     Login     Proper Name     Used   Energy 
--------- --------------- --------- --------------- -------- -------- 
     core    form_2021_29                               8663        0 
     core    form_2021_29       foo             bar       13        0 
     core    form_2021_29       foo             bar     1170        0 
     core    form_2021_29       foo             bar       52        0 
     core    form_2021_29       foo             bar       99        0 
     core    form_2021_29       foo             bar     1465        0 
     core    form_2021_29       foo             bar     1609        0 
     core    form_2021_29       foo             bar    1758        0 
     core    form_2021_29       foo             bar      395        0 
     core    form_2021_29        foo             bar      825        0 
     core    form_2021_29        foo             bar      435        0 
     core    form_2021_29        foo             bar       52        0 
     core    form_2021_29        foo             bar        1        0 
     core    form_2021_29        foo             bar      777        0 
     core    form_2021_29        foo             bar       14        0 

(:warning: note de @gildaslecorguille, étant sur un forum public j'ai censuré le nom des utilisateurs)

Pour info, aucune heure CPU n'a été consommée avant le 2022-01-01.

Je ne comprends pas la différence entre les 415119 hCPU annoncées par status_bars et les 8663 hCPU renvoyées par sreport. Quelle valeur est d'après vous la plus proche de la réalité ?

Merci pour votre aide.

Pierre

@team.ifbcorecluster auriez-vous une idée ?

Bonjour, le système de barres utilise sshare pour faire son calcul, mais en reprenant cette source j'arrive à 6935h. J'ai rapidement regardé le programme, il est probable que la valeur renvoyée par status_bars soit des minutes et non des heures.

1 « J'aime »

Bonjour @jhaessig merci pour ta réponse.

C'est ce que j'ai pensé aussi au début mais les 6935 h renvoyées par sshare sont quand même assez différentes des 8663 h données par sreport. Aurai-je fait une erreur sur l'utilisation de sreport ?

Il me semble que sshare et sreport ne prennent pas leurs données dans les mêmes bases de données et les données sont agrégées différemment.
En l'occurence, sshare est l'outil de référence en ce qui concerne la disponibilité d'heures de calcul. En effet il est possible de réinitialiser le rawusage rapporté par sshare ou modifier la limite maximum. Sreport est fait pour faire des rapports d'utilisation. Je ne sais pas quelle est la granularité des données qu'il enregistre. Il agrège les données de différentes manières pour les différents types de rapports possibles.
Quand on regarde sshare et sreport par utilisateur côte à côte, les données sont assez bien corrélées, je ne sais pas d'où vient l'écart mais tout cela ne me semble pas aberrant.

JC

Les valeurs renvoyées par sshare sont inférieures à celles renvoyées par sreport, ce qui est favorable à l'utilisateur dans la mesure où ce sont les valeurs fournies par sshare qui font référence pour le calcul des quotas.

J'ai créé un ticket sur la forge pour remonter le bug de conversion minutes / heures.

1 « J'aime »

Bonjour @team.ifbcorecluster

Pourriez-vous s'il vous plait jeter un oeil au ticket en cours ? C'est embêtant d'avoir un calcul de consommation erroné, surtout lorsque celui-ci apparait à la connexion.

Salut @pierrepo, :christmas_tree:

L'affichage des heures CPU est indicative car nous n'avons pour l'heure placé aucun quota actif.
De plus, nous sommes toujours en train de nous battre lors des calculs des indicateurs pour comprendre les différents retours de SLURM sur les calculs d'heures CPU.
Enfin, l'affichage des hCPU est par défaut caché, sauf à setter une variable dans son bashrc (ce que tu as dû faire) :wink:

Mais ça ne veut pas dire qu'il ne faudrait pas s'y re-pencher, nous sommes d'accord.

:thinking: Peut-être ajouter comme sur les stations services que seul le ticket de caisse fait foi ?

Salut @gildaslecorguille

Bonne année !

Je suis d'accord avec toi. Mais en l'espèce, le bug que j'avais remonté était une simple erreur de conversion heure / minute. Le chiffre renvoyé par l'outil status_bar ne sera pas exact mais au moins plus proche de la réalité :slight_smile: