Conda environnement pour ataq seq pipeline

Ludivine_D · Mai 21, 2019, 12:44

Bonjour,

je souhaiterais utiliser une pipeline pour l'analyse de données ATACseq disponible sur https://github.com/ENCODE-DCC/atac-seq-pipeline/blob/master/docs/tutorial_slurm.md#tutorial-for-slurm-clusters).

Pour cela, je voudrais utiliser l'environnement conda comme proposé.
J'ai essayé de l'installer sur mon home directory (mais je viens de lire sur votre documentation que vous le déconseillez...). Il me semble que je n'ai pas pu installé les Conda dependencies correctement. J'ai essayé de voir la liste des environnements conda disponibles (module load conda puis conda env list) mais je n'ai rien trouvé...

Cette pipeline peut aussi être utilisé avec Singularity, j'ai essayé mais j'ai aussi obtenu un message d'erreur :
more slurm-339087.out
ERROR: Unable to locate a modulefile for 'java'
/var/spool/slurm/slurmd/job339087/slurm_script: line 60: java: command not found...

Serait il possible de m'aider à installer l'environnement adapté (encode-atac-seq-pipeline-python3) ?

Je vous remercie pour votre aide.

Bonne journée,
Ludivine

dbenaben · Mai 29, 2019, 9:04

Bonjour @Ludivine_D,

Désolé pour ce retour tardif, on est passé un peu au travers.

Vous pouvez installer vos outils dans votre home directory. Nous privilégions simplement l'installation dans un dépôt commun pour que cela profite au plus grand nombre.

En effet, ENCODE ATAC-seq pipeline n'est pas disponible sur le cluster. Nous allons regarder pour le mettre à disposition.

L'erreur rencontré pour utiliser singularity ne concerne pas singularity
L'erreur rencontré ici concerne simplement java qui n'est pas encore installé sur le cluster.
En effet, un peu étrangement, d'après la doc, il faut lancer le pipeline et singularity via java: java -jar -Xmx1G -Dconfig.file=backends/backend.conf -Dbackend.default=singularity cromwell-38.jar run atac.wdl -i ${INPUT} -o workflow_opts/singularity.json -m ${PIPELINE_METADATA}
Nous allons installer java.

On reviens vers vous dès qu'on a avancé un peu.

A très vite

dbenaben · Mai 29, 2019, 3:48

@Ludivine_D,

Java est maintenant disponible (openjdk version "1.8.0_112")
Suvi de la modificaiton: https://gitlab.cluster.france-bioinformatique.fr/taskforce/conda-env/merge_requests/110

Pour l'utiliser (dans le terminal ou dans un script):

module load java-jdk/8.0.112

Le pipeline qui appel singularity devrait maintenant fonctionner.
Est-il possible de tester à nouveau ?

Désolé encore pour cette réponse tardive.

A bientôt

Ludivine_D · Juin 3, 2019, 4:22

Bonjour,

J'ai testé (job 435073) et singularity/java a en effet l'air de fonctionner mais la pipeline ataqseq ne fonctionne toujours pas (avec leur test)... Je ne comprends pas exactement d'où vient l'erreur...
J'obtiens:
"[2019-06-03 13:30:26,99] [error] WorkflowManagerActor Workflow 160954ab-78a2-4e46-b755-937ae2caf723 failed (during ExecutingWorkflowState): Job atac.read_genome_tsv:NA:1 exited with return code 255 which has not been declared as a valid return code. See 'continueOnReturnCode' runtime attribute for more details.
Check the content of stderr for potential additional information: /shared/mfs/data/home/ldoridot/atac-seq-pipeline/cromwell-executions/atac/160954ab-78a2-4e46-b755-937ae2caf723/call-read_genome_tsv/execution/stderr.

Malheureusement, pas d'info dans stderr...

Mais il y aussi plein de warnings avant de type :
"[2019-06-03 13:30:15,37] [warn] singularity [160954ab]: Key/s [cpu, memory, time, disks] is/are not supported by backend. Unsupported attributes will not be part of job execution"
Je ne comprend pas vraiment d'où cela vient.

Je vais chercher et essayer de voir d'où vient le problème.

Merci pour votre aide avec java en tout cas.
Très bonne fin de journée,
Ludivine

gildaslecorguille · Juin 18, 2019, 9:02

Bonjour,

Vous travaillez dans un espace projet ou dans votre home ?
Je demande ça parce que je vois /shared/mfs/data/home/ldoridot/atac-seq-pipeline/ dans vos logs.

Les quota sur les home sont sciemment bas pour vous encourager/obliger à travailler dans des espaces projets. Peut-être avez-vous juste rempli le quota de votre home ?

Ludivine_D · Juin 18, 2019, 1:32

Bonjour,

je travaillais en effet depuis mon home (j'avais bien mis mes données dans shared, mais essayais de faire tourner la pipeline avec les données test fournies depuis mon home). Je vais tout refaire depuis l'espace projet. Mais le petit test ne devrait pas prendre trop de mémoire, donc cela m'étonnerait que l'erreur soit lié à ça. Cela vaut le coup de tester et de toute façon, mieux vaut directement travailler au bon endroit. Y a-t-il une commande pour afficher les quota des espaces auxquels on a accès ?

Je vous remercie pour votre aide,
Bonne fin de journée,
Ludivine

dbenaben · Juin 20, 2019, 9:43

Bonjour Ludivine,

Aujourd'hui, les quota ne sont pas consultables directement par les utilisateurs (si je ne dis pas de bêtise).
Il faut se référer à la documentation (http://taskforce-nncr.gitlab.cluster.france-bioinformatique.fr/doc/data/)
On va essayer d'améliorer ça.

Bonne journée