目前的高通量測序技術可以在單次運行中產生數億個序列。在分析此序列以得出生物學結論之前,應該執行一些簡單的質量控制檢查,以獲得較好的原始數據,並且確保數據中沒有任何問題或偏差,本文就來介紹一款簡單常用的質量檢測工具fastQC
可以直接在teminal 操作。在操作前呢,我們需要FastQc安裝
選擇下載編譯好的程序,上傳軟件安裝包到Linux服務器,使用unzip命令來進行解壓縮。
然後進入解壓縮文件,fastqc文件即是主程序,沒有辦法直接運行,需 chmod u+x file
命令修改為可執行權限。
如果覺得官網下載安裝太麻煩,推薦conda安裝最方便:
conda install fastqc
fastqc seqfile1 seqfile2 .. seqfileN
# 一次大量
fastqc *.fastq.gz
國網上:不用載FastQC
#!/usr/bin/sh
#SBATCH -A MST109178 # Account name/project number
#SBATCH -J Job_name # Job name
#SBATCH -p ngs48G # Partition Name 等同PBS裡面的 -q Queue name
#SBATCH -c 14 # 使用的數 請參考Queue資源設定
#SBATCH --mem=46g # 使用的記憶體量 請參考Queue資源設定
#SBATCH -o out.log # Path to the standard output file
#SBATCH -e err.log # Path to the standard error ouput file
#SBATCH --mail-user=XXXX@narlabs.org.tw # email
#SBATCH --mail-type=BEGIN,END # 指定送出email時機 可為NONE, BEGIN, END, FAIL, REQUEUE, ALL
##這邊寫入你要執行的指令
#FastQC位置
FastQC_PATH=/opt/ohpc/Taiwania3/pkg/biology/FastQC/FastQC_v0.11.9/fastqc
output_path="/staging/biology/winnie/debugs/try"
# 一次一個
${FastQC_PATH} -f fastq IHW01003_S23_L001_R1_001.fastq
# * 一次多個
${FastQC_PATH} -f fastq ${output_path}/*.fastq
PS. 如果直接跑(相對路徑),下 -f fastq seqFile,那麼要注意跑的.sh以及目標檔案位置,要先cd 到當時的資料夾底下再執行.sh, 不然會出現以下錯誤訊息:
Skipping 'IHW01003_S23_L001_R1_001.fastq' which didn't exist, or couldn't be read
因此會建議用絕對路徑會比較好!
fastqc –help
# 命令行使用
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
-h --help
-v --version
-o -output dir
-casave 文件來自原始 casave 輸出
-nano 文件來自 nanopore 序列,採用 fast5 格式
-extract 如果設置,則壓縮輸出
-j --java java文件完整路徑
-nogroup 禁止讀取 2500bp 以上的鹼基組
-f 跳過正常文件格式檢測,強制指定使用 bam | sam | bam_mapped | sam_mapped | fastq
-t --threads多線程,多線程250 M
-c --contamin 指定包含的非默認文件,遺留一系列的序列(哈希)
-a -adapters 指定包含列表的非默認文件,包含一組已經命名的Adapter(哈希)
-l 一個非默認文件,限制將指定確認warning / Fairure,或者從結果中刪除一些模塊,cofiguration --> limits.txt
-k -kmers 指定要在Kmer中查找的長度,必須在2-10之間,默認為7
-q -quiet 安靜模式,在標準輸出上禁止所有的消息,只報錯
-d --dir 一個目錄用於寫入臨時文件當生成圖像時,默認系統臨時目錄