Transfert de données par rsync

Je suis en train de transférer un gros dossier de données RNA-seq depuis Marseille (139.124.66.6) vers le cluster core, avec la commande suivante.

rsync -ruptvl results_2016-01 jvanhelden@core.cluster.france-bioinformatique.fr:GLOSSINE

Le dossier total fait 1.4To, et en 30’ j’ai transféré ~15GB.

Sauf erreur de ma part ça fait une vitesse de transfert de ~66 Mbps

> 15e9 *8 / (30*60) / 1e6
[1] 66.66667

Le transfert total devrait prendre ~11h.

> 15/30*1400/60
[1] 11.66667

C’est très supportable, mais je trouve surprenant d’être limité à 66Mbps alors que le labo est connecté à l’extérieur avec du Gbps. Je voudrais tester si le goulot se situe au niveau de la sortie de mon labo de Marseille, à l’entrée du cluster, ou sur le parcours. Existe-t-il des outils qui permettent de faire cela ?

Ceci dépasse mon besoin anecdotique de transfert, je trouve que ça pourrait être utile de disposer d’outils de monitoring de la bande passante pour les services du cluster, afin de mesurer d’une part les volumes totaux transférés, et d’autre part les fluctuations de vitesses de transferts entrants et sortants, et au cas où on localiserait des goulots d’étranglement, essayer d’optimiser.

Sont-ce des choses qui se font ? (juste pour info)

Merci

Jacques

Bonjour Jacques,

Ça me paraît une bonne idée de disposer d’un outil de test de bande-passante. Cela permettrait au moins de s’assurer que les débits sont bons de bout en bout (par exemple https://iperf.fr/).
Nous avons par contre de fortes contraintes réseaux et je ne suis pas sûr que cela puisse être mis en place. On va regarder.

Néanmoins, de ma petite expérience, avec un simple rsync (au travers d’une connexion SSH), je tourne entre 60 et 160 Mbits/s.
Cela dépend aussi fortement du type de données (plein de petits fichiers ou de gros fichiers, du système de fichiers sous-jacent, de la compression, etc).
En tout cas, je peine à dépasser les 160 Mbits/s.

Pour aller au-delà, il faut souvent changer d’outil en parallélisant les transferts.
Il y a plein d’outils disponibles dont certains basés sur notre ami rsync.
Je suis un inconditionnel de fpsync (https://github.com/martymac/fpart) mais il y a aussi le très bon rclone (https://rclone.org/, plus orienté objet), etc.
Avec ces méthodes, sur un lien WAN à 1 Gbps, on peut s’approcher du Giga (un débit de plus de 600 Mbits/s serait déjà très bon).

Quelques liens pour aller plus loin:
HowTo move data: http://moo.nac.uci.edu/~hjm/HOWTO_move_data.html
GNU Linux Mag, Parallélisez vos transferts de fichiers: https://connect.ed-diamond.com/GNU-Linux-Magazine/GLMF-164/Parallelisez-vos-transferts-de-fichiers

Salutations.