這兩天我打算紀錄順便回顧一下前兩天介紹的東西如何實際地應用在一筆真實的Data上,因此得先簡單說明一下這整個生物資訊分析的步驟:
這種格式的檔案每四行標示著一段序列,第一行會以 @
開頭,後面接著的是這個序列特有的ID、定序儀器的相關資訊等。第二行就很重要了,這就是定序機器所讀出來的一段DNA/RNA序列。第三行一般都只給一個 +
號,而第四行也很重要,這行原本標示著定序機器在判讀第二行中每一個字符時可能犯錯的機率,但會以-log10()
去轉換成所謂的Phred score
,犯錯的機率越小,分數也就越高,因此也稱作Quality score
。
拿到這樣的資料之後,往往我們都得先進行所謂的Quality control
的流程:這個流程會由兩個以上的步驟組成—將原本的Fastq檔案中每條序列的read length
及quality score
的分佈可視化、去掉實驗中額外接上的序列或切掉quality score比較低的鹼基(Bases)、去掉低複雜度的序列或是當中含括的空洞太大的序列。這一段所作的事情,我們也稱之為pre-processing
(前處理)。
經過前處理之後,我們接著就會先這些序列比對到我們所採用的參考序列上。這中間有時需要將Fastq格式的檔案轉換成Fasta
格式的檔案,得看所使用的比對軟體用的是哪種。
比對完之後所產生的結果通常也會經過檔案轉換及資料過濾等步驟。之所以會需要做檔案轉換,主要也是跟前面所選取的比對工具有關。而後面的資料過濾,則是我們會希望只保留比對結果比較好的那些紀錄,過濾掉那些比對結果差的序列,一來那些比對效果不好的序列不會是我們的目標,二來它們有可能是實驗當中發生污染所致,所以必須過濾掉。
比對上的這些結果則需要進一步整理,同時得將比對到的那些物種在我所使用的資料庫中的ID,對應回分類學資料庫中的那些物種ID。
統計結果並畫圖。
以上這就是接下來我以某個樣本中所偵測到的細菌16s rRNA基因的DNA序列開始,到最後我怎麼得到在這個樣本裡每種細菌相對總量的統計圖(relative abundance)。
今天就先紀錄到這邊,明天獻上實現這些步驟所需的commands及scripts。