Job 27835333 stalled?

emorin · Décembre 19, 2022, 11:54

Bonjour,

J'ai soumis un job pour lancer iprscan sur un génome de plante le 7 décembre et il me semble qu'après quelques heures le programme n'écrit plus rien. Il tourne depuis 12j.

Avant de le tuer je voulais avoir un 2ème avis, et également une solution pour voir ce job se terminer correctement en créant les fichiers attendus.

Voir le fichier slurm : /shared/projects/fungigenomics/slurm-27835333.out

merci,

Emmanuelle

dbenaben · Décembre 19, 2022, 3:21

Bonjour Emmanuelle,

Le programme "tourne" toujours mais je doute beaucoup sur l'efficacité...
Si on se connecte sur le nœud en question et que l'on regarde l'activité, on observe énormément de process java (56) ainsi que d'autre process (4 hmmpfam, etc).

slurm_script───bash───starter-suid─┬─bash───java─┬─hmmpfam───4*[{hmmpfam}]
                                   │             ├─hmmsearch
                                   │             ├─phobius.pl───sh───decodeanhmm
                                   │             ├─python3───pfsearchV3
                                   │             └─56*[{java}]
                                   └─7*[{starter-suid}]

Sachant qu'il y a seulement 4 CPU demandés et alloués pour le job, j'ai peur que les process/threads se marchent les uns sur les autres et que ce soit complètement contre-productif.
J'ai le sentiment que l'option "4 cpu" n'est pas respecté. On voit par exemple que le process java est lancé avec les options suivantes: java -XX:ParallelGCThreads=8 -Xms2028M -Xmx9216M -jar interproscan-5.jar --cpu 4 ...

J'essaierais donc de configurer interproscan pour mieux maîtriser les process/CPU à utiliser et je relancerais le job...

emorin · Janvier 9, 2023, 3:09

J'ai réessayé sans option CPU dans le slurm et en demandant moins d'analyses mais il a planté quand même et alors là l'erreur est obscure !
slurmstepd: error: Detected 1 oom-kill event(s) in StepId=29064767.batch cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.

Voir le fichier slurm : /shared/projects/fungigenomics/slurm-29064767.out
Faut-il que je réessaie sur un noeud big mem ?

merci,
E.

dbenaben · Janvier 9, 2023, 5:20

Les options slurm ne sont pas problématique. Au contraire si vous ne les spécifiez pas, vous aurez les options par défaut: soit 1 CPU, 2Go RAM. Ce qui semble insuffisant dans votre cas puisque votre job a besoin de plus de mémoire (l'erreur "out-of-memory" indique qu'il manque de mémoire).

Vos options slurm précédentes (4 CPU, 2Go/cpu) semblent donc plus adaptées.

Le problème semble venir de la configuration de interproscan (process/CPU à utiliser). Avez-vous essayer le mode standalone ?
Dans tous les cas essayer d'affiner la configuration/lancement de interproscan pour correspondre aux ressources demandés à Slurm.
Avant d'utiliser un noeud "bigmem", il faut d'abord saturer une machine standard (jusqu'à 25Go RAM), autant dire qu'il y a de la marge.

emorin · Janvier 30, 2023, 11:20

Bonjour,

Apparemment le problème venait de la taille de mon fichier + de 60,000 protéines.
L'analyse fonctionne maintenant partiellement, en effet, j'ai besoin des annotations GO et pour le moment cela ne fonctionne pas. Voici le message qui s'affiche lorsque les options --goterms et --iprlookup sont utilisées :

2023-01-27 15:02:18,714 [Thread-20] [uk.ac.ebi.interpro.scan.business.sequence.BerkeleyPrecalculatedProteinLookup:748] WARN - 

The version of InterProScan you are using is 5.59-91.0
The version of the lookup service you are using is 5.60-92.0
As the data in these versions is not the same, you cannot use this match lookup service.
InterProScan will now run locally
If you would like to use the match lookup service, you have the following options:
i) Download the newest version of InterProScan5 from our FTP site by following the instructions on:
   https://www.ebi.ac.uk/interpro/interproscan.html
ii) Download the match lookup service for your version of InterProScan from our FTP site and install it locally.
    You will then need to edit the following property in your configuration file to point to your local installation:
    precalculated.match.lookup.service.url=

merci pour votre aide,
Emmanuelle