FROGs en Ligne de CommandeThis page describes how to launch FROGs in command line from IRD cluster. From fastq files to OTU and Phyloseq analysis. |
We need, in this tutorial:
- a compressed directory with fastq files
- a database used for the taxonomic assignation
Author(s)
Authors | Julie ORJUELA |
---|---|
Research Unit | UMR IPME-DIADE-BOREA |
Institut | IRD |
Keywords
flash, swarm, blastn, silva, vsearch, metabarcoding, 16S, 18S, ITS
Files format
fastq, OTU tables
Date
22/03/2019
Lancer FROGs en Ligne de Commande
On crée un dossier. Profitez pour le faire dans le /scratch d’un noeud si vous êtes au cluster IRD.
mkdir /scratch/TEST-FROGS/
1. Préparation de fastq
Tous les fichiers fastq.gz (R1 et R2) seront mis dans un dossier qu’il faudra apres compresser en .tar.gz Pour compresser le fichier il faut:
-
se deplacer dans le dossier des fastq.gz
cd dataset_path/
-
Compresser
tar zcvf dataset_path *
-
Vérifier que le dossier compressé a tous les fichiers et qu’il n’y a pas de sous-dossier: Pour observer les fichiers sans le décompresser utilise
tar -tf dataset_path.tar.gz
. Vous devez avoir la liste des fichiers fastq.gz sans sous-dossier.
Exemple :
Documentation compression : https://openclassrooms.com/fr/courses/43538-reprenez-le-controle-a-laide-de-linux/41346-archiver-et-compresser
extraire : tar zxvf
create: tar zcvf
examiner: tar -tf
- vous obtenez un fichier dataset_path.tar.gz que vous pouvez deplacer dans
/scratch/TEST-FROGS/
scp nas3:/your_projet_path/test_dataset.tar.gz /scratch/TEST-FROGS/
.
2. Préparation d’un fichier tabulé “sample_metadata.tsv” qui R utilise
exemple 1 :
exemple2:
3. Connaitre le path de la base de données pour les etapes d’assignation taxonomique
sur le cluster IRD :
/usr/local/frogs_databases-2.01/silva_123_16S/silva_123_16S.fasta
4. Visualiser/modifier le script avant de le lancer :
Download run_frogs_pipeline.sh
Ouvrir run_frogs_pipeline.sh dans un editeur.
Vous pouvez modifier les lignes 3 et 4 du script pour ajouter le chemin vers les fichiers sample_metadata et la base de données pour l’assignation taxonomique
samplefile="/scratch/TEST-FROGS/sample_metadata.tsv"
db="/usr/local/frogs_databases-2.01/silva_123_16S/silva_123_16S.fasta"
+Le reste on ne touche pas sauf si vous savez ce que vous faites.+
5. Lancer le script run_frogs_pipeline.sh
Pour lancer le script place vous dans l’endroit ou vous voulez avoir les résultats :cd /scratch/TEST-FROGS/
Attention: les amorces doivent etre ecrit en 5’-3’
qsub -q bioinfo.q -N frogsCL -b yes -V -cwd -pe ompi 4 'bash run_frogs_pipeline.sh 380 460 GGCGVACGGGTGAGTAA GTGCCAGCNGCNGCGG 250 250 420 OUTPUT /scratch/TEST-FROGS/dataset_path.tar.gz'
les paramettres :
1<minAmpliconSize>
2<maxAmpliconSize>
3<fivePrimPrimer>
4<threePrimPrimer>
5<R1size>
6<R2size>
7<expectedAmpliconSize>
8<out_dir>
9<datasetTarGz>
Si tout se passe bien vous verrez ça:
380
460
GGCGVACGGGTGAGTAA
GTGCCAGCNGCNGCGG
250
250
420
OUTPUT
/home/orjuela/TEST-FROGS/fromGitExemple/test_dataset.tar.gz
Step preprocess ven. sept. 21 11:49:56 CEST 2018
Step clustering ven. sept. 21 11:52:29 CEST 2018
Step remove_chimera ven. sept. 21 11:52:44 CEST 2018
Step filters ven. sept. 21 11:54:30 CEST 2018
Step affiliation_OTU ven. sept. 21 11:54:33 CEST 2018 ...
Votre dossier OUTPUT doit rassembler à ça
orjuela@MPLCLTLP0157:~/Documents/tools/FROGS/test/OUT$ ll
total 91524
drwxr-xr-x 2 orjuela orjuela 53248 juin 15 15:23 ./
drwxr-xr-x 4 orjuela orjuela 4096 juil. 12 14:40 ../
-rw-r--r-- 1 orjuela orjuela 39183498 juin 15 15:12 01-prepro.fasta
-rw-r--r-- 1 orjuela orjuela 34922 juin 15 15:12 01-prepro.html
-rw-r--r-- 1 orjuela orjuela 19178 juin 15 15:12 01-prepro.log
-rw-r--r-- 1 orjuela orjuela 4668203 juin 15 15:12 01-prepro.tsv
-rw-r--r-- 1 orjuela orjuela 4941307 juin 15 15:13 02-clustering.biom
-rw-r--r-- 1 orjuela orjuela 4325539 juin 15 15:13 02-clustering_compo.tsv
-rw-r--r-- 1 orjuela orjuela 17010668 juin 15 15:13 02-clustering.fasta
-rw-r--r-- 1 orjuela orjuela 3278 juin 15 15:13 02-clustering.log
-rw-r--r-- 1 orjuela orjuela 1610390 juin 15 15:14 03-chimera.biom
-rw-r--r-- 1 orjuela orjuela 5455138 juin 15 15:14 03-chimera.fasta
-rw-r--r-- 1 orjuela orjuela 13943 juin 15 15:14 03-chimera.html
-rw-r--r-- 1 orjuela orjuela 81978 juin 15 15:14 03-chimera.log
-rw-r--r-- 1 orjuela orjuela 989852 juin 15 15:14 04-affiliation.biom
-rw-r--r-- 1 orjuela orjuela 15831 juin 15 15:14 04-affiliation.html
-rw-r--r-- 1 orjuela orjuela 1824 juin 15 15:14 04-affiliation.log
-rw-r--r-- 1 orjuela orjuela 224506 juin 15 15:14 04-filters.biom
-rw-r--r-- 1 orjuela orjuela 307008 juin 15 15:14 04-filters.excluded
-rw-r--r-- 1 orjuela orjuela 661810 juin 15 15:14 04-filters.fasta
-rw-r--r-- 1 orjuela orjuela 130418 juin 15 15:14 04-filters.html
-rw-r--r-- 1 orjuela orjuela 1478 juin 15 15:14 04-filters.log
-rw-r--r-- 1 orjuela orjuela 187007 juin 15 15:14 05-clustersStat.html
-rw-r--r-- 1 orjuela orjuela 933 juin 15 15:14 05-clustersStat.log
-rw-r--r-- 1 orjuela orjuela 248668 juin 15 15:14 06-affiliationsStat.html
-rw-r--r-- 1 orjuela orjuela 1170 juin 15 15:14 06-affiliationsStat.log
-rw-r--r-- 1 orjuela orjuela 1120 juin 15 15:14 07-biom2tsv.log
-rw-r--r-- 1 orjuela orjuela 23252 juin 15 15:14 07-biom2tsv.multi
-rw-r--r-- 1 orjuela orjuela 1138093 juin 15 15:14 07-biom2tsv.tsv
-rw-r--r-- 1 orjuela orjuela 154897 juin 15 15:14 08-affiliation_multihit.tsv
-rw-r--r-- 1 orjuela orjuela 844425 juin 15 15:14 08-affiliation_std.biom
-rw-r--r-- 1 orjuela orjuela 338 juin 15 15:14 08-biom2stdbiom.log
-rw-r--r-- 1 orjuela orjuela 1124530 juin 15 15:14 09-tsv2biom.biom
-rw-r--r-- 1 orjuela orjuela 641114 juin 15 15:14 09-tsv2biom.fasta
-rw-r--r-- 1 orjuela orjuela 882 juin 15 15:14 09-tsv2biom.log
-rw-r--r-- 1 orjuela orjuela 182059 juin 15 15:17 10a-tree.html
-rw-r--r-- 1 orjuela orjuela 1346 juin 15 15:17 10a-tree.log
-rw-r--r-- 1 orjuela orjuela 64971 juin 15 15:17 10a-tree.nwk
-rw-r--r-- 1 orjuela orjuela 180238 juin 15 15:18 10b-tree.html
-rw-r--r-- 1 orjuela orjuela 1082 juin 15 15:18 10b-tree.log
-rw-r--r-- 1 orjuela orjuela 67318 juin 15 15:18 10b-tree.nwk
-rw-r--r-- 1 orjuela orjuela 1267549 juin 15 15:18 11-phylo_import.html
-rw-r--r-- 1 orjuela orjuela 1295 juin 15 15:18 11-phylo_import.log
-rw-r--r-- 1 orjuela orjuela 69734 juin 15 15:18 11-phylo_import.Rdata
-rw-r--r-- 1 orjuela orjuela 4033991 juin 15 15:19 12-phylo_composition.html
-rw-r--r-- 1 orjuela orjuela 1027 juin 15 15:19 12-phylo_composition.log
-rw-r--r-- 1 orjuela orjuela 1214435 juin 15 15:22 13-phylo_alpha_div.html
-rw-r--r-- 1 orjuela orjuela 1077 juin 15 15:22 13-phylo_alpha_div.log
-rw-r--r-- 1 orjuela orjuela 223 juin 15 15:19 13-phylo_alpha_div.tsv
-rw-r--r-- 1 orjuela orjuela 789726 juin 15 15:22 14-phylo_beta_div.html
-rw-r--r-- 1 orjuela orjuela 1010 juin 15 15:22 14-phylo_beta_div.log
-rw-r--r-- 1 orjuela orjuela 971 juin 15 15:23 16-phylo_clustering.log
-rw-r--r-- 1 orjuela orjuela 865732 juin 15 15:23 16-phylo_clutering.html
-rw-r--r-- 1 orjuela orjuela 748887 juin 15 15:23 17-phylo_manova.html
-rw-r--r-- 1 orjuela orjuela 951 juin 15 15:23 17-phylo_manova.log
-rw-r--r-- 1 orjuela orjuela 67 juin 15 15:22 Jaccard_binary.tsv
-rw-r--r-- 1 orjuela orjuela 67 juin 15 15:22 Unifrac.tsv
Rapatrier les dossier OUTPUT dans votre projet puis dans votre machine local et visualiser les html.