iT邦幫忙

2022 iThome 鐵人賽

DAY 24
0
AI & Data

16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣系列 第 24

[Day 24] TGS pb-16S-nf : 範例序列下載與製作輸入檔案 (Manifest & Metadata)

  • 分享至 

  • xImage
  •  

準備第三代定序分析所需的輸入檔案

pb-16S-nf 沿襲了 QIIME2 [Day 06] 的特色,
同樣需要下列輸入檔案,在格式上與次世代相當類似 :

  1. 定序出來的原始檔案 (.fastq.gz or .fastq)
  2. manifest.tsv
  3. sample-metadata.tsv

以下範例程式運行會耗時半天以上,使用國網(NCHC)或自家伺服器>32 CPUs較佳,
若時間有限會建議所有定序檔案路經改為
pb-16S-nf/test_data/test_1000_reads.fastq.gz,會跑很快~

  • 下載範例定序資料 (.fastq.qz)

    下載公開文獻資料的原理與安裝請見 [Day 04 ],就不贅述。

    本次範例選擇汙水微生物菌相序列作為教學 (LaMartina, E. L., Schmoldt, A. L., & Newton, R. J., 2022) :
    https://ithelp.ithome.com.tw/upload/images/20221006/2015151034hQzMl7fg.png
    其序列為 PacBio 16S Full Length (27F & 1492R) ,
    accession number 為 PRJNA809416 並餵給 SRA Run Selector
    這次選擇四個檔案當示範~
    https://ithelp.ithome.com.tw/upload/images/20221006/20151510ohxB3a0aMs.png
    教學方便,我創一個資料夾TGS_sewagepb-16S-nf下 :

    mkdir TGS_oral
    cd TGS_oral
    

    將以下序列檔案編號放入 SRR_Acc_List.txt,並放到TGS_sewage下 :

    vi SRR_Acc_List.txt
    

    貼上來自 PRJNA809416 的其中四個檔案 :

    SRR18111929
    SRR18111930
    SRR18111931
    SRR18111932
    

    製作 batch_download.py :

    vi batch_download.py
    
    from bioinfokit.analys import fastq
    fastq.sra_bd(file='SRR_Acc_List.txt', t=16, other_opts='--split-files' )
    

    啟動SRA_download虛擬環境並執行 batch_download.py
    這裡會需要一些時間,可以去買杯咖啡~

    conda activate SRA_download
    
    python batch_download.py
    

    若出現 No module named 'bioinfokit',回到 [Day 04] 安裝 bioinfokit。

    將定序檔案壓縮 :

    gzip *.fastq
    

    順利的樣子 :

    XXXXXX users 45418123 Oct  4 00:27 SRR18111929.fastq.gz
    XXXXXX users 37210512 Oct  4 00:19 SRR18111930.fastq.gz
    XXXXXX users 54730305 Oct  4 00:32 SRR18111931.fastq.gz
    XXXXXX users 37175973 Oct  4 00:35 SRR18111932.fastq.gz 
    
  • 樣本清單檔案 manifest.tsv

    manifest 是清單的意思,與 QIIME2 輸入格式相同,
    檔名為 manifest.tsv
    路徑XXXXXX記得更改成自己的

    sample-id       absolute-filepath
    1St_29_Kenedy_Texas     /home/XXXXXX/pb-16S-nf/TGS_sewage/SRR18111929.fastq.gz
    1St_152_Metro_North     /home/XXXXXX/pb-16S-nf/TGS_sewage/SRR18111930.fastq.gz
    1St_151_Laramie /home/XXXXXX/pb-16S-nf/TGS_sewage/SRR18111931.fastq.gz
    1St_141_Mendenhall      /home/XXXXXX/pb-16S-nf/TGS_sewage/SRR18111932.fastq.gz
    

    若時間有限會建議所有定序檔案路經改為pb-16S-nf/test_data/test_1000_reads.fastq.gz 發現了嗎 ?
    與 NGS V3-V4 雙尾定序的資料不同,每個樣本僅有一個定序檔案,
    因為突破了技術限制,不須雙邊讀取,

  • 註釋資料 sample-metadata.tsv

    metadata 是後設資料、註釋資料的意思,
    可以根據實驗設計新增新的 column ,
    與次世代分析相同,新增index一個樣本一組,
    範例中也新增組別名為group分別為A, B
    檔名為 sample-metadata.tsv :

    sample_name     index       group
    1St_29_Kenedy_Texas     1St_29_Kenedy_Texas     A
    1St_152_Metro_North     1St_152_Metro_North     A
    1St_151_Laramie 1St_151_Laramie B
    1St_141_Mendenhall      1St_141_Mendenhall      B
    

環境、檔案都有了,下回跑分析 !


上一篇
[Day 23] TGS pb-16S-nf : 分析流程概述與安裝
下一篇
[Day 25] TGS pb-16S-nf : 執行分析及結果頁面簡介
系列文
16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣33
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言