iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 25
1
自我挑戰組

猶豫就會敗北,果斷就會白給|園藝 boy 的生物資訊冒險記趣,跟上學術潮流不走冤望路 feat. RNA-Sick系列 第 25

RNA-Sick@Day25 > 我念 HMMER,但是我朋友都念 HMMER,聽說正解是HMMER|基於隱藏式馬可夫鍊的超強序列比對軟體 feat. HMMER3

用 HMMER 掃描序列

演化的基本假設之一就是不同的物種或不同的基因家族成員可能具有共同的祖先,也就是同源(homology) 的概念。我們將序列相似度高的基因歸為一群,假設他們同源。序列相似度需要實際的統計方式來定義,也就是透過 BLAST (Basic Local Alignment Search Tool)、FASTA、HMMER 等等序列比對軟體輸出的得分來衡量。序列比對軟體比對的對象可以是序列 (sequence) 本身,也可以是用 profile。profile 在此翻譯成輪廓,代表序列的輪廓,由一組相似的序列為材料,比如同一個基因家族的同一個 domain,就可以透過 HMM 的過程來建立一個基於機率的輪廓。

直接來個例子~

現在想要找出苦瓜中所有的 NAC 轉錄因子,有三種策略:

  1. 在 NCBI 上輸入關鍵字「bitter melon」「NAC」。隨著基因體註解工具的進步,這個方法已經越來越可靠了,問題反而是出在要羅列所有可能的關鍵字同義詞。
  2. 用適合的序列 BLAST 苦瓜轉錄體來搜尋。找找小黃瓜、西瓜、甜瓜等等親緣比較近的植物的研究,說不定已經有人發表這些可以參考的植物中的 genome-wide NAC transcription factor analysis,我們就可以把那些序列下載下來當作餌,釣出苦瓜中的目標。缺點是需要依靠別人的文章,下載序列若不依靠程式很麻煩,而且是建立在脆弱的親緣關係相近之假設上,說不定我們以為親緣關係近的物種其實有著關鍵性的演化分支,那麼不只是假設錯誤,若不夠敏銳的話就是直接錯過了有趣的研究謎題。
  3. 用 HMMER 搭配 pfam 的 profile 來搜尋。以下就讓我們看看這個選項的流程~

pfam 已經搜集了所有有發表的 domain 的序列,供大家搜尋檢閱下載,下載的格式是 Stockholm,其中包含了已經初步比對過的序列。Stockholm 檔案格式如下

假設我們下載了一個叫做 cct 的比對檔案,檔案名稱為 cct.sto,下一步就要使用 hmmer 針對這個比對的檔案建立一個 cct 的 hmm profile,檔案名稱為 cct.hmm

hmmbuild cct.hmm cct.sto

.hmm 檔案的格式如下,其中數值為由序列比對檔案運算之機率

之後再使用下列指令,對 transcriptome.fa 的所有序列,以 cct.hmm 搜尋,找出符合其輪廓的序列

hmmsearch cct.hmm transcriptome.fa

輸出的檔案格式包括標題、入選的序列、以及條入選序列與 profile 的比對結果

最後輸出的檔案結果其實跟 BLAST 的結果很像,就是一些候選的序列跟他們兩條比對夠相似的片段的連連看,但是背後原理大不同。至於實際操作上來說,如果使用 BLAST 的話,那就是序列對序列的搜尋,胡瓜中有一百條 NAC 的話,我們就要把一百條 NAC 都抓下來每一個都對苦瓜轉錄體執行一次 BLAST,其中有些不重複的輸出結果又該保留就會變成一場災難。相較之下, HMMER 是以一群相似的序列來建立機率 profile,更可以代表這一整群參考的序列先祖的共同的狀態,以一個 profile 去搜尋一套轉錄體,輸出的結果就可以很確定地供下游分析啦!

參考資料與延伸閱讀

HMMER online tool

hmmer user guide

HMMER.org

關於作者

謝晨 (Chen Hsieh),臺大園藝暨景觀學系研究所碩士。讀碩士前的興趣是懷著寫點程式妄圖解決農業問題的夢想參加比賽,拿了幾個黑客松與 Open Data 創新應用競賽的獎,卻都沒有勇氣將項目經營下去;研究所期間的興趣轉換成讀學術期刊的出刊電子報。靠著這些興趣當選 107 學年的臺大優秀青年,畢業後卻成了無業的實驗室居民。現在在農場旁的研究館辦公室寫點東西,希望可以跟世界分享生物資訊與園藝的樂趣!

感謝選擇匿名的朋友協助校閱初稿與提供意見,也敬請各位讀者不吝指教!

E-mail

Facebook

Twitter

Linkedin

RNA-Sick.me


上一篇
RNA-Sick@Day24 > 關於資料視覺化,我想說的是|用 python 繪製充滿特色的圖表 feat. seaborn
下一篇
RNA-Sick@Day26 > 不被名稱耽誤的套裝軟體|直接由序列內容預測功能區段 feat. MEME suite
系列文
猶豫就會敗北,果斷就會白給|園藝 boy 的生物資訊冒險記趣,跟上學術潮流不走冤望路 feat. RNA-Sick30

尚未有邦友留言

立即登入留言