[Day 19] NGS QIIME2 : 分析與繪製微生物基因功能預測 PICRUSt2 + STAMP (上)

2022 iThome 鐵人賽

DAY 19

AI & Data

16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣系列第 19 篇

14th鐵人賽

MDChain

2022-10-04 10:21:17

3662 瀏覽

分享至

微生物在群體中扮演什麼角色-功能預測

經歷了品質管制、物種分配、多樣性分析，
多半只聞菌名，不明白菌在其中扮演的角色，
可能是代謝醣類又或是分解纖維素......等，
PICRUSt2 「是一套根據標記基因的序列去預測微生物基因功能的工具」。
有別於[Day 10]所介紹的資料庫，
PICRUSt2 使用名為 IMG database 做為參考與預測。
(Douglas, Gavin M., et al., 2020)

也有使用 SILVA 資料庫做為參考進行功能預測的競品 - Tax4fun2
(Aßhauer, Kathrin P., et al., 2015) 。

準備所需的輸入檔案

先啟動 QIIME2 環境

conda activate qiime2-2022.8

BIOM 檔案 (Biological Observation Matrix) feature-table.biom

可以在 [Day 09] 得到的table-dada2-240.qza找到它，
內含 OTU ID (Feature ID) 與各樣本所含條數的資訊，
執行下列指令就可以得到它了 :
```
qiime tools export \
  --input-path table-dada2-240.qza \
  --output-path ./
```
--output-path : 調整輸出的資料夾，
若取一個未存在的資料夾則會創建一個並放置輸出的檔案

完成後會出現 :
```
'Exported table-dada2-240.qza as BIOMV210DirFmt to directory ./'
```
仔細看家目錄會出現 feature-table.biom，
檔案屬於二進制檔案，需要使用特別指令才能檢視它 :
```
biom head -i feature-table.biom
```
就會看到檔案內包含 OTU ID 、樣本名稱、條數 :
```
# Constructed from biom file
#OTU ID CRC_A   CRC_B   CRC_C   CRC_D   CRC_E
5734d308edfca83cec219467b72d26c3        923.0   8924.0  1572.0  0.0     0.0
0d6423f877003863be13b156d31c6857        0.0     0.0     0.0     5169.0  1775.0
b2990c5ea568a7b07384eedc5e302e12        0.0     0.0     7499.0  0.0     0.0
abe0240c1edcf1585ff88b99755451a8        0.0     5977.0  0.0     0.0     0.0
8d087f9f3d06576a314044cc12484bf8        0.0     0.0     1865.0  2207.0  834.0
```
biom 格式是專為生物資訊分析的檔案，由於資料中含有相當多的"0" 即稀疏矩陣(sparse matrix)，該格式利用演算法將矩陣壓縮儲存。
FNA / FASTA 檔案 dna-sequences.fasta

可以在 [Day 09] 得到的rep-seqs-dada2-240.qza找到它，
內含 OTU ID (Feature ID) 與原始序列(ATCG...)，
執行下列指令就可以得到它了 :
```
qiime tools export \
  --input-path rep-seqs-dada2-240.qza \
  --output-path ./
```
完成後會出現 :
```
'Exported rep-seqs-dada2-240.qza as DNASequencesDirectoryFormat to directory ./'
```
家目錄會出現 dna-sequences.fasta，偷看一下長什麼樣子 :
```
less dna-sequences.fasta
```
含有 OTU ID (Feature ID) 與原始序列(ATCG...) :
```
>5734d308edfca83cec219467b72d26c3
GGCAGCAGTGGGGAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGC
.
.
.
```
An FNA file is a FASTA Format DNA and Protein Sequence Alignment file.
Reference : lifewire.com

安裝與啟動 mamba 及 PICRUSt2 (v2.5.0)

官方提醒 : 設備需要含有 > 16GB RAM，根據樣本數量可能會跑到數小時以上。

conda install mamba -n base -c conda-forge

mamba init

#若已有安裝 mamba 可不用執行上面兩行

mamba create -n picrust2 -c bioconda -c conda-forge picrust2=2.5.0

由於使用單執行緒執行 conda install 太慢，新的軟體都會採用多執行緒的 mamba ，其操作方法與 conda install 相同，只需要將指令 conda 改為 mamba 即可。

完成後會長這樣，會發現其實跟安裝 QIIME2 一樣 :

Preparing transaction: done
Verifying transaction: done
Executing transaction: done
#
# To activate this environment, use
#
#     $ conda activate picrust2
#
# To deactivate an active environment, use
#
#     $ conda deactivate

啟動環境

conda activate picrust2

執行 PICRUSt2 (v2.5.0)

PICRUSt2 提供單一指令執行全部流程 (Full pipeline script)，
所需要的檔案就是前面所提的dna-sequences.fasta及feature-table.biom :

picrust2_pipeline.py \
  -s dna-sequences.fasta \
  -i feature-table.biom \
  -o picrust2_out_pipeline \
  -p 12

This script will run each of the 4 key steps :
(1) sequence placement,
(2) hidden-state prediction of genomes,
(3) metagenome prediction,
(4) pathway-level predictions.

過程可能會相當漫長，順利的話會得到 picrust2_out_pipeline資料夾，裡面包含如下 :

EC_metagenome_out  
#Folder containing unstratified EC number metagenome predictions
EC_predicted.tsv.gz 
#Predicted EC number copy numbers per ASV.
intermediate
#Folder containing intermediate MinPath files and files used for sequence placement pipeline.
KO_metagenome_out
#As EC_metagenome_out above, but for KO metagenomes.
KO_predicted.tsv.gz
#As EC_predicted.tsv.gz above, but for KO predictions.
marker_predicted_and_nsti.tsv.gz
#Predicted 16S copy numbers and NSTI per ASV.
out.tre
#Tree of reference and study 16S sequences.
pathways_out
#Folder containing predicted pathway abundances and coverages per-sample, based on predicted EC number abundances.

Reference : picrust2 wiki

本篇使用到的檔案 :
table-dada2-240.qza、rep-seqs-dada2-240.qza、dna-sequences.fasta、feature-table.biom