iT邦幫忙

2022 iThome 鐵人賽

DAY 7
0
AI & Data

16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣系列 第 7

[Day 07] NGS QIIME2 : 定序資料加工壓縮 (Artifacts) 與概述 (Overview) 視覺化

  • 分享至 

  • xImage
  •  

壓縮成 QIIME2 artifacts (.qza) 分析專用格式

在整個分析流程中,輸入的檔案必須轉換為 QIIME2 artifacts (.qza) 壓縮格式,
這類型檔案之後會在一個一個分析流程中穿梭,
.qza 是一種電腦看得懂,人類看不懂的玩意兒,
a 指的就是人為加工過的檔案 (artifacts)。

可以想成將定序資料與註釋包裝的集合檔案。

那資料視覺化呢 ?
部分的 .qza 檔案有提供轉換為 .qzv功能,
v 指的就是視覺化 (visualization) ,
各種美美的圖都會從.qzv跑出來!
變成電腦看不懂,人類看了很喜歡的玩意兒

因此接下來 .qza .qzv 兩個靈魂檔案格式會充斥著本系列文!

首先,必須先拎著 [Day 06] 所得到的三個檔案,

  1. 定序的原始檔案 (.fastq.gz)
  2. 樣本清單 manifest.tsv
  3. 註釋資料 sample-metadata.tsv

將三者轉換為一個 QIIME2 artifacts (.qza),幫助匯入。

先啟動 qiime2-2022.8 環境 :

conda activate qiime2-2022.8
  • 匯入 (Importing)

    第一步先將上述三個檔案匯入轉換為 .qza :

    qiime tools import \
    --type 'SampleData[PairedEndSequencesWithQuality]' \
    --input-format PairedEndFastqManifestPhred33V2 \
    --input-path manifest.tsv \
    --output-path demux.qza 
    

    qiime tools import : 使用 qiime 軟體 插件為 tools 的 import 函式
    --type : 16S 定序主流以 PairedEnd 為主 [詳情]
    --input-format : Phred33V2 是一種對序列品質分數表示格式
    --input-path : manifest.tsv 的所在路徑
    --output-path : 轉換產出的 .qza 的檔名與路徑
    實務上,定序檔案若是來自文獻、廠商,
    回到手上時多已拆分 (demultiplex) 完畢,
    所以跳過拆分步驟 (Barcode部分我習慣在QC部分處理),
    demux.qza 命名,如有需要可以看這裡

    完成後會顯示 :

    "Imported manifest.tsv as PairedEndFastqManifestPhred33V2 to demux.qza"
    
  • demux.qzv 視覺化 (visualization)

    接下來我們將迎來第一個視覺化資料 :
    剛剛得到 demux.qza 轉為 .qzv
    輸入 :

    qiime demux summarize \
    --i-data demux.qza  \
    --o-visualization demux.qzv
    

    完成後會顯示 :

    "Saved Visualization to: demux.qzv"
    

    demux.qzv 下載後拉到 QIIME VIEW 網站的框框,
    就會跑出漂漂的 data ~ QIIME VIEW 可以直接加進我的最愛,之後會超常用到!

    https://ithelp.ithome.com.tw/upload/images/20220903/20151510piBjEbPyZw.png

  • 資料解讀

    • Overview 確認樣本名稱、數量與條數

    https://ithelp.ithome.com.tw/upload/images/20220903/20151510Ssgj9jubMU.png
    在這裡可以看到所分析的檔案名稱、數量與條數,
    因為定序時來回讀取,資料上會有 Forward 與 Reverse,
    通常會相同,因為我還沒見過不同的 XD
    在這裡要做的是資料的確認,
    看有沒有漏上傳或是打錯的名字。

    • Interactive Quality Plot 序列品質查看

    這個頁面非常重要,
    會影響到下一步要做的品質管制 (Quality Control),
    橫軸為每一條序列的長度,
    根據 [Day 05] 我們知道,
    序列長度取決於要 Primer 夾取哪個片段,
    範例中所使用的夾取 V3-V4 片段的 Primer (可以從 Paper得知),
    長度大約是 470 bp。

    https://ithelp.ithome.com.tw/upload/images/20220903/20151510A7SgXWCEXF.png

    因為含有 adapters 緣故,,
    加上兩條必須 overlapping 才能組裝,
    所以單條序列長度會達到 250 bp,合起來會超過 470 bp (約 500 bp)。

    因此在這圖中就可以看到橫軸長度約為 250 bp,
    縱軸則為 Quality Score (Q Score) 品質分數,
    代表著機器根據每個 mer 讀取到的螢光,
    所給予的品質分數,
    https://ithelp.ithome.com.tw/upload/images/20220903/20151510hKNICSnxe3.png
    Reference : wikipedia

    上面這張圖說明了 Q Score 分數的意涵,
    以 Q Score 20 來說,
    代表有 99% 肯定這個 mer 是 A/T/C/G,
    次世代定序中 Q Score > 25 就不錯了!

    https://ithelp.ithome.com.tw/upload/images/20220903/20151510PscnCZLcY8.png
    還可以將圖框起來放大特定區域(左),
    會發現其實每個 base 都是一根根的四分位距圖(右),
    每個 base 都是根據所有序列條數 (sequence counts) 品質所繪製出來的結果 !

  • 在下一步前,先決定要切多少 : Trimming 修剪序列

    如果有些 base 的 Q Score < 25 怎麼辦呢?
    這通常會發生在序列的一開始與結束,
    這時候就要決定要留多少的nt,進行後續分析。

    生科人如果曾經送過 Sanger 定序確認基因重組 / Primer夾取結果,
    像是加 His Tag, Plasmid 或是切膠定序確認,
    報告中會看到定序剛開始與結束訊號的不穩定,
    導致訊號混亂,就會看到這種圖案 :
    https://ithelp.ithome.com.tw/upload/images/20220903/201515107Bxv872MpT.png
    直到中間序列才會逐漸穩定 :
    https://ithelp.ithome.com.tw/upload/images/20220903/201515100UJvWMNWGS.png
    次世代定序也是如此,頭尾的訊號也會相較中段不穩定,
    因此需要進行修剪。
    Reference

    https://ithelp.ithome.com.tw/upload/images/20220903/20151510rWjVQzAi2J.png

    以範例來說,我習慣選擇 :

    1. 中位數 Q Score > 25 以上序列
    2. 切除開頭前 10~30 nt
      實務上很常遇到不知道有無切除 Barcode,所以乾脆都切掉~
      如果很肯定不含有,可以切 5~10 nt (Q Score < 25)即可。
    3. Forward、Reverse 盡量切等長
      避免後續 QC 兩序列無法互相組裝,
      在這例子上,我們留下 10~250 nt抄在便條紙上,下回會用到

本篇使用到的輸入/輸出檔案 :
Input : .fastq.gz、manifest.tsv、sample-metadata.tsv
Output: demux.qza、demux.qzv

下回修剪序列與看品質管制 (Quality Control) 結果 !

本篇文章同步刊載於科學毛怪部落格 PetSci Blog


上一篇
[Day 06] NGS QIIME2 : 安裝與製作輸入檔案 (Manifest & Metadata)
下一篇
[Day 08] NGS QIIME2 : DADA2 序列品質管制 (Quality control) 與視覺化
系列文
16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣33
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言