經歷了品質管制、物種分配、多樣性分析,
多半只聞菌名,不明白菌在其中扮演的角色,
可能是代謝醣類又或是分解纖維素......等,
PICRUSt2 「是一套根據標記基因的序列去預測微生物基因功能的工具」。
有別於[Day 10]所介紹的資料庫,
PICRUSt2 使用名為 IMG database 做為參考與預測。
(Douglas, Gavin M., et al., 2020)
也有使用 SILVA 資料庫做為參考進行功能預測的競品 - Tax4fun2
(Aßhauer, Kathrin P., et al., 2015) 。
先啟動 QIIME2 環境
conda activate qiime2-2022.8
BIOM 檔案 (Biological Observation Matrix) feature-table.biom
可以在 [Day 09] 得到的table-dada2-240.qza
找到它,
內含 OTU ID (Feature ID) 與各樣本所含條數的資訊,
執行下列指令就可以得到它了 :
qiime tools export \
--input-path table-dada2-240.qza \
--output-path ./
--output-path : 調整輸出的資料夾,
若取一個未存在的資料夾則會創建一個並放置輸出的檔案
完成後會出現 :
'Exported table-dada2-240.qza as BIOMV210DirFmt to directory ./'
仔細看家目錄會出現 feature-table.biom
,
檔案屬於二進制檔案,需要使用特別指令才能檢視它 :
biom head -i feature-table.biom
就會看到檔案內包含 OTU ID 、樣本名稱、條數 :
# Constructed from biom file
#OTU ID CRC_A CRC_B CRC_C CRC_D CRC_E
5734d308edfca83cec219467b72d26c3 923.0 8924.0 1572.0 0.0 0.0
0d6423f877003863be13b156d31c6857 0.0 0.0 0.0 5169.0 1775.0
b2990c5ea568a7b07384eedc5e302e12 0.0 0.0 7499.0 0.0 0.0
abe0240c1edcf1585ff88b99755451a8 0.0 5977.0 0.0 0.0 0.0
8d087f9f3d06576a314044cc12484bf8 0.0 0.0 1865.0 2207.0 834.0
biom 格式是專為生物資訊分析的檔案,由於資料中含有相當多的"0" 即稀疏矩陣(sparse matrix),該格式利用演算法將矩陣壓縮儲存。
FNA / FASTA 檔案 dna-sequences.fasta
可以在 [Day 09] 得到的rep-seqs-dada2-240.qza
找到它,
內含 OTU ID (Feature ID) 與原始序列(ATCG...),
執行下列指令就可以得到它了 :
qiime tools export \
--input-path rep-seqs-dada2-240.qza \
--output-path ./
完成後會出現 :
'Exported rep-seqs-dada2-240.qza as DNASequencesDirectoryFormat to directory ./'
家目錄會出現 dna-sequences.fasta
,偷看一下長什麼樣子 :
less dna-sequences.fasta
含有 OTU ID (Feature ID) 與原始序列(ATCG...) :
>5734d308edfca83cec219467b72d26c3
GGCAGCAGTGGGGAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGC
.
.
.
An FNA file is a FASTA Format DNA and Protein Sequence Alignment file.
Reference : lifewire.com
官方提醒 : 設備需要含有 > 16GB RAM,根據樣本數量可能會跑到數小時以上。
conda install mamba -n base -c conda-forge
mamba init
#若已有安裝 mamba 可不用執行上面兩行
mamba create -n picrust2 -c bioconda -c conda-forge picrust2=2.5.0
由於使用單執行緒執行 conda install 太慢,新的軟體都會採用多執行緒的 mamba ,其操作方法與 conda install 相同,只需要將指令 conda 改為 mamba 即可。
完成後會長這樣,會發現其實跟安裝 QIIME2 一樣 :
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
#
# To activate this environment, use
#
# $ conda activate picrust2
#
# To deactivate an active environment, use
#
# $ conda deactivate
conda activate picrust2
PICRUSt2 提供單一指令執行全部流程 (Full pipeline script),
所需要的檔案就是前面所提的dna-sequences.fasta
及feature-table.biom
:
picrust2_pipeline.py \
-s dna-sequences.fasta \
-i feature-table.biom \
-o picrust2_out_pipeline \
-p 12
This script will run each of the 4 key steps :
(1) sequence placement,
(2) hidden-state prediction of genomes,
(3) metagenome prediction,
(4) pathway-level predictions.
過程可能會相當漫長,順利的話會得到 picrust2_out_pipeline
資料夾,裡面包含如下 :
EC_metagenome_out
#Folder containing unstratified EC number metagenome predictions
EC_predicted.tsv.gz
#Predicted EC number copy numbers per ASV.
intermediate
#Folder containing intermediate MinPath files and files used for sequence placement pipeline.
KO_metagenome_out
#As EC_metagenome_out above, but for KO metagenomes.
KO_predicted.tsv.gz
#As EC_predicted.tsv.gz above, but for KO predictions.
marker_predicted_and_nsti.tsv.gz
#Predicted 16S copy numbers and NSTI per ASV.
out.tre
#Tree of reference and study 16S sequences.
pathways_out
#Folder containing predicted pathway abundances and coverages per-sample, based on predicted EC number abundances.
Reference : picrust2 wiki
本篇使用到的檔案 :
table-dada2-240.qza、rep-seqs-dada2-240.qza、dna-sequences.fasta、feature-table.biom