Erreur wrapper SARTOOLS, DEseq2 et EdgeR

Re-bonjour,

Je rencontre un problème avec l'utilisation de Sartools sur usegalaxy.fr. Je lui donne bien en entrée un fichier de target décrivant mes fichiers d'entrée, qui sont eux stockés dans un zip, comme demandé. Mais j'obtiens l'erreur suivante en lançant le run :

Traceback (most recent call last):
File "/shared/ifbstor1/galaxy/shed_tools/toolshed.g2.bx.psu.edu/repos/lgueguen/sartools/de6d0b7c17af/sartools/abims_sartools_deseq2_wrapper.py", line 129, in
main()
File "/shared/ifbstor1/galaxy/shed_tools/toolshed.g2.bx.psu.edu/repos/lgueguen/sartools/de6d0b7c17af/sartools/abims_sartools_deseq2_wrapper.py", line 70, in main
print("Wrapper arguments: %s") %(args)
TypeError: unsupported operand type(s) for %: 'NoneType' and 'Namespace'

Tous mes arguments ont l'air d'être bien remplis. Je me demande si à tout hasard c'est une erreur Python dans le wrapper ou si c'est moi qui donne un mauvais input ? Si vous me dites que l'erreur vient de mon côté, il n'y a pas de problème, je chercherai la solution.

Merci pour votre aide
Amandine

ping @lgueguen :slight_smile:

Bonjour,
L'erreur vient probablement de ce que le wrapper galaxy n'est pas compatible avec python3. Une mise à jour est en cours : https://github.com/PF2-pasteur-fr/SARTools-Galaxy/pull/11.
Je vous tiendrais au courant quand elle sera disponible sur usegalaxy.
Cordialement,
Loraine Guéguen

Bonjour @Amandine_V,
Le bug devrait être corrigé avec la version 1.7.3 de sartools qui a été installée : https://usegalaxy.fr/root?tool_id=toolshed.g2.bx.psu.edu/repos/lgueguen/sartools/sartools_deseq2/1.7.3+galaxy0
Bonne journée,
Loraine

1 J'aime

Bonjour,

Je viens de relancer le même job avec la nouvelle version et j'ai une erreur rsync à présent :

Merci beaucoup pour votre aide,
Amandine

Bonjour,
Je me permets juste de vous relancer pour préciser que je donnes une formation le 26 janvier où je dois utiliser l'outil SARTools. Pensez-vous que d'ici la le problème sera réglé ?
Merci d'avance.
Très bonne journée,
Amandine

Bonjour @Amandine_V,
Je n'avais pas vu votre message. Le problème devrait être réglé avant le 26.
Bonne journée,
Loraine

1 J'aime

Pouvez-vous me transmettre le contenu du fichier Rlog généré par galaxy ?

Je vous le transfère directement dans le message, car les nouveaux utilisateurs n'ont pas le droit d'uploader des fichiers :

Loading required package: DESeq2
Loading required package: S4Vectors
Loading required package: stats4
Loading required package: BiocGenerics
Loading required package: parallel

Attaching package: ‘BiocGenerics’

The following objects are masked from ‘package:parallel’:

    clusterApply, clusterApplyLB, clusterCall, clusterEvalQ,
    clusterExport, clusterMap, parApply, parCapply, parLapply,
    parLapplyLB, parRapply, parSapply, parSapplyLB

The following objects are masked from ‘package:stats’:

    IQR, mad, sd, var, xtabs

The following objects are masked from ‘package:base’:

    anyDuplicated, append, as.data.frame, basename, cbind, colnames,
    dirname, do.call, duplicated, eval, evalq, Filter, Find, get, grep,
    grepl, intersect, is.unsorted, lapply, Map, mapply, match, mget,
    order, paste, pmax, pmax.int, pmin, pmin.int, Position, rank,
    rbind, Reduce, rownames, sapply, setdiff, sort, table, tapply,
    union, unique, unsplit, which.max, which.min


Attaching package: ‘S4Vectors’

The following object is masked from ‘package:base’:

    expand.grid

Loading required package: IRanges
Loading required package: GenomicRanges
Loading required package: GenomeInfoDb
Loading required package: SummarizedExperiment
Loading required package: MatrixGenerics
Loading required package: matrixStats

Attaching package: ‘MatrixGenerics’

The following objects are masked from ‘package:matrixStats’:

    colAlls, colAnyNAs, colAnys, colAvgsPerRowSet, colCollapse,
    colCounts, colCummaxs, colCummins, colCumprods, colCumsums,
    colDiffs, colIQRDiffs, colIQRs, colLogSumExps, colMadDiffs,
    colMads, colMaxs, colMeans2, colMedians, colMins, colOrderStats,
    colProds, colQuantiles, colRanges, colRanks, colSdDiffs, colSds,
    colSums2, colTabulates, colVarDiffs, colVars, colWeightedMads,
    colWeightedMeans, colWeightedMedians, colWeightedSds,
    colWeightedVars, rowAlls, rowAnyNAs, rowAnys, rowAvgsPerColSet,
    rowCollapse, rowCounts, rowCummaxs, rowCummins, rowCumprods,
    rowCumsums, rowDiffs, rowIQRDiffs, rowIQRs, rowLogSumExps,
    rowMadDiffs, rowMads, rowMaxs, rowMeans2, rowMedians, rowMins,
    rowOrderStats, rowProds, rowQuantiles, rowRanges, rowRanks,
    rowSdDiffs, rowSds, rowSums2, rowTabulates, rowVarDiffs, rowVars,
    rowWeightedMads, rowWeightedMeans, rowWeightedMedians,
    rowWeightedSds, rowWeightedVars

Loading required package: Biobase
Welcome to Bioconductor

    Vignettes contain introductory material; view with
    'browseVignettes()'. To cite Bioconductor, see
    'citation("Biobase")', and for packages 'citation("pkgname")'.


Attaching package: ‘Biobase’

The following object is masked from ‘package:MatrixGenerics’:

    rowMedians

The following objects are masked from ‘package:matrixStats’:

    anyMissing, rowMedians

Loading required package: edgeR
Loading required package: limma

Attaching package: ‘limma’

The following object is masked from ‘package:DESeq2’:

    plotMA

The following object is masked from ‘package:BiocGenerics’:

    plotMA

Loading required package: ggplot2
Loading required package: kableExtra
Registered S3 method overwritten by 'GGally':
  method from   
  +.gg   ggplot2
    ----------------------------------------------
    Welcome to SARTools version 1.7.3.
    R template scripts are available on GitHub.
    ----------------------------------------------
There were 13 warnings (use warnings() to see them)
[1] "All the parameters are correct"
Target file:
          label              files group
Mock_M2 Mock_M2 dataset_928292.dat  Mock
Mock_M3 Mock_M3 dataset_928293.dat  Mock
Mock_M4 Mock_M4 dataset_928294.dat  Mock
CaMV_C1 CaMV_C1 dataset_928295.dat  CaMV
CaMV_C2 CaMV_C2 dataset_928296.dat  CaMV
CaMV_C3 CaMV_C3 dataset_928297.dat  CaMV
TuYV_T1 TuYV_T1 dataset_928298.dat  TuYV
TuYV_T2 TuYV_T2 dataset_928299.dat  TuYV
TuYV_T3 TuYV_T3 dataset_928300.dat  TuYV
Loading files:
dataset_928292.dat: 27656 rows and 5660 null count(s)
dataset_928293.dat: 27656 rows and 5715 null count(s)
dataset_928294.dat: 27656 rows and 6050 null count(s)
dataset_928295.dat: 27656 rows and 5440 null count(s)
dataset_928296.dat: 27656 rows and 5581 null count(s)
dataset_928297.dat: 27656 rows and 5539 null count(s)
dataset_928298.dat: 27656 rows and 5818 null count(s)
dataset_928299.dat: 27656 rows and 5614 null count(s)
dataset_928300.dat: 27656 rows and 5810 null count(s)
Error in counts%%1 : non-numeric argument to binary operator
Calls: loadCountData
Execution halted

C'est une erreur dans le script R. J'ai ouvert une issue pour le signaler à l'auteur du script : https://github.com/PF2-pasteur-fr/SARTools/issues/79

D'accord, merci !

Pouvez-vous essayer en supprimant les entêtes des fichiers de comptage ? Il semble que l'erreur provienne de là.

1 J'aime

Super, ça fonctionne sans le header, merci !

Mais du coup, j'ai une question "pratique". Dans l'outil featureCounts, il n'y a pas d'option permettant de spécifier "pas de header" ou "supprimer le header". Ce serait pratique de l'avoir puisque je pense que c'est assez courant de faire featureCounts, puis SARTools pour les analyses RNAseq. Ou alors d'avoir cette option dans SARTools, de pouvoir ignorer le header.

Dans Sartools, il y a l'option "Names of the features to be removed", du coup je me suis dit que je pouvais mettre "Geneid", la valeur de la première colonne de mon header, mais cela ne fonctionne pas, cette ligne est quand même prise en compte par SARTools et génère l'erreur.

Pour régler le problème, je dois enlever le header de chacun de mes fichiers de comptage à la main. N'y a -t-il pas une solution plus pratique que je ne connaitrais pas ?

Edit : je viens de voir la réponse de Hugo, il faut donc que je change le format d'output par défaut de l'outil featureCounts sous Galaxy. Par défaut, Output format est à "Gene-ID\tread count", mais peut-être que je dois choisir "featureCounts default". Je teste et vous dit.

Loraine,

Quand j'utilise l'outil "Preprocess files for Sartools" sur les fichiers générés par featureCounts avec le paramètre de sortie "featureCounts default", le fichier de design est vide et il y a une erreur.

Quand je le fais sur la sortie par défaut de featureCounts sur Galaxy, après avoir enlevé les headers, ça fonctionne.

Donc je vais garder la solution d'enlever les headers à la main, puis de ré-uploader les fichiers pour SARTools, ce sera plus simple et ça fonctionne.

Merci pour votre aide.
Amandine

Quelle est l'erreur ?

Les résultats sont disponibles dans l'historique que je vous ai partagé, ce sont les dernières analyses. J'ai fait un featureCounts avec le paramètre de sortie featureCounts par défaut, j'ai téléchargé la collection et j'ai uploadé les fichiers tabular généré (sans enlever le header). Puis je lance le preprocess de SARTools sur ces fichiers et j'ai une erreur, mais je n'arrive pas à l'afficher en entier (je vous laisse regarder).

EDIT : le job n'est pas rouge mais le fichier de design et le zip sont vides.

Il semble en effet que l'outil preprocess de sartools ne soit pas prévu pour les sorties de featureCounts avec le format "1.4.0+ default" (7 tab-separated columns with headers).

Il faut donc effectivement utiliser le format par défaut dans Galaxy de featureCount (2 columns), enlever l'entête puis faire tourner l'outil preprocess de sartools.

Il est possible d'enlever l'entête des sorties de featureCounts dans Galaxy avec l'outil "Remove beginning of a file" par exemple.

1 J'aime

Super, merci pour l'astuce !