iT邦幫忙

2022 iThome 鐵人賽

DAY 6
0
AI & Data

16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣系列 第 6

[Day 06] NGS QIIME2 : 安裝與製作輸入檔案 (Manifest & Metadata)

  • 分享至 

  • xImage
  •  

安裝主程式 QIIME2 2022.8 版

QIIME2 堪稱次世代定序分析界的霸主,
如同 Mirosoft office 是文書軟體界大哥一樣,
雖然兩者用戶數有顯著差距就是了,
QIIME2 以學術分析研究為主,
基本上是開源的,團隊相當認真維護,更新也更的很勤,
可以在網站上看到超頻繁的版本列表 :
https://ithelp.ithome.com.tw/upload/images/20220830/20151510rTbwcwoVCY.png
這邊我們就選用 2022.8 版 作為教學。

  • 下載 QIIME2 配置檔案 (.yml)

    wget https://data.qiime2.org/distro/core/qiime2-2022.8-py38-linux-conda.yml
    

    .yml or .yaml 副檔名的檔案內含有安裝一個軟體所需要的各種套件,
    簡單來說,我們都是站在巨人的肩膀上長大的,
    所以一個軟體也會有著許多套件幫助他得以運行,
    如果好奇的話,打開來看長得像是這樣,dependencies 下每一行就是一個套件 :
    https://ithelp.ithome.com.tw/upload/images/20220830/20151510F2Z0ISOsRr.png

    同樣用 conda 再創造一個虛擬環境 :
    執行下列指令,然後喝杯咖啡,等待安裝完成......

    conda env create -n qiime2-2022.8 --file qiime2-2022.8-py38-linux-conda.yml
    

    --file 代表 conda會根據這個配置檔案安裝所有需要的套件,
    與 [Day 04] 安裝 bioinfokit python 方式比起來更省事些,
    直接跟 conda 說,我需要的套件都寫在這檔案裡了! 幫我裝~

    直到看到最後三行出現就是安裝結束~

    Downloading and Extracting Packages
    q2-taxa-2022.8.0     | 110 KB    | ############################################# | 100%
    bokeh-2.4.3          | 13.3 MB   | ############################################# | 100%
    
    #中間還有很多安裝進度條,省略省略省略,不覺得看著進度在跑很療癒嗎~
    ...
    Preparing transaction: done
    Verifying transaction: done
    Executing transaction: done
    

    安裝結束後,可以把配置檔案刪除,它功成身退了!

    rm qiime2-2022.8-py38-linux-conda.yml
    

    Reference : QIIME2-2022.8 技術文件

    經歷了上述的環境建置後,以下則是每次分析前所需要準備的檔案,

    1. [Day 04]所提及定序出來的原始檔案 (.fastq.gz or .fastq)
    2. manifest.tsv
    3. sample-metadata.tsv
  • Input 資料 (1) : 樣本清單檔案 manifest.tsv

    manifest 是清單的意思,
    目的是告訴 QIIME2 .fastq.gz 的路徑在哪裡,
    以及該檔案所對應的樣本名稱為何,
    以 [Day 04] 的範例資料其中6筆作為例子,格式就會如下 :
    檔名為 manifest.tsv

    sample-id 	forward-absolute-filepath	reverse-absolute-filepath
    CRC_A	$PWD/SRR6498087_1.fastq.gz	$PWD/SRR6498087_2.fastq.gz
    CRC_B	$PWD/SRR6498088_1.fastq.gz	$PWD/SRR6498088_2.fastq.gz
    CRC_C	$PWD/SRR6498089_1.fastq.gz	$PWD/SRR6498089_2.fastq.gz
    CRC_D	$PWD/SRR6498090_1.fastq.gz	$PWD/SRR6498090_2.fastq.gz
    CRC_E	$PWD/SRR6498091_1.fastq.gz	$PWD/SRR6498091_2.fastq.gz
    CRC_F	$PWD/SRR6498092_1.fastq.gz	$PWD/SRR6498092_2.fastq.gz
    

    實務上我會習慣先用 Excel 製作這個表,
    搭配 Excel 特有的快速填入 (Ctrl + E),
    讓重複有規則的檔案路徑很快填入,
    最後在Excel選 匯出 > 變更檔案類型 > 文字檔(Tab 字元分隔)(*.txt)。
    當然要直接在 Linux 用 vim / nano 創建此檔案也行。

    $PWD 指的是使用者現在的目錄位置,
    用相對路徑的方式告訴 QIIME2 定序檔案在以我為基準的哪個地方,
    也是可以使用絕對路徑。
    forward-absolute reverse-absolute 則是雙邊讀取的檔案。

  • Input 資料 (2) : 註釋資料 sample-metadata.tsv

    metadata 是後設資料、註釋資料的意思,
    目的是告訴 QIIME2 這些樣本的分組狀態,
    可以依不同方式分組,在下列範例則是用兩種方式,
    分別是一個人一組的Index,以及用性別分組的 Sex
    如果有需要可以再向右擴充延伸分組,
    強烈建議每次分析都加上一個人一組的 Index
    在後續分析結果中會很方便,
    同樣以 [Day 04] 的範例資料其中6筆作為例子,格式就會如下 :
    檔名為 sample-metadata.tsv

sample_name Index Sex
#q2:types categorical categorical
CRC_A CRC_A Female
CRC_B CRC_B Female
CRC_C CRC_C Female
CRC_D CRC_D Male
CRC_E CRC_E Male
CRC_F CRC_F Male

q2:types categorical categorical 是什麼 ?
其中 q2 : types 代表告訴 QIIME2 該行是一個註釋指令,後面接著 categorical 或 numeric,
如果分類是用數字,例如 : CRC_A、CRC_B、CRC_C 一天吃 2 餐,就用 numeric ,
如果分類是用非數字,例如 : CRC_A、CRC_B、CRC_C 是女性,就用 categorical。
如果 CRC_A、CRC_B、CRC_C 一天吃 2 餐,用 categorical 可以嗎? 當然可以

環境、檔案都有了,下回跑分析 !

本篇文章同步刊載於科學毛怪部落格 PetSci Blog


上一篇
[Day 05] NGS QIIME2 : 16S rRNA 介紹與分析流程概述
下一篇
[Day 07] NGS QIIME2 : 定序資料加工壓縮 (Artifacts) 與概述 (Overview) 視覺化
系列文
16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣33
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言