最新版本請見:https://chenhsieh.com/post/bioinfo/11-trinotate/
新組裝轉錄體後,會產出一個 Trinity.fasta 的序列檔案,其中包含所有可能的轉錄產物 isoform,以下是針對序列代號的說明:
每個代號中有三個關鍵的字符:C (component)、G (gene)、I (isoform),而他們連帶前綴的 DN 代碼都只是軟體中的操作型定義。G 和 I 所對應到的生物意義其實沒有辦法仔細區分。前綴相同而擁有不同 G 序號的序列,有可能其實是相同基因家族的不同成員 (paralogs),也有可能是 Gene Fragment (註)。前綴相同而擁有不同 I 序號的序列,有可能其實是非常相似的基因家族成員 (paralogs),也有可能真的是選擇性剪切 (alternative splicing) 之 isoform。而這些資訊在 Trinity 的官方文件中沒有太完整直白的說明,是由作者之一 Brian Haas 在某個 Google+ 討論區回答使用者問題時解釋的。
註:所謂 Gene Fragment 指的是來自相同的基因座之某一轉錄產物,在定序階段僅有其 5' 端與 3' 端有較高的覆蓋率,因而在組裝階段無法將兩端的序列組裝還原成原本的單一轉錄產物,誤判成兩條轉錄產物之結果。
Trinotate 是一套銜接於 Trinity 後的綜合註解流程,本身並沒有額外的演算法在其中,只要照著操作就可以有一套相對完整的對於新組裝轉錄體之註解資訊。Trinotate 首先將 Trinity.fasta 的所有 isoform 透過 TransDecoder 預測轉錄產物的轉譯結果,得到相對應的 peptide 序列之後才分別透過 BLAST 和 HMMER 等序列比對工具與數個不同的線上資料庫比對,比對結果匯集入 SQL 資料庫中。最後一般使用者可以選擇直接由 SQL 匯出一個巨大的 Excel 表格,老闆看了就會很開心;進階使用者則可以依自己的需求進行更靈活的運用與分析。
基本上官方文件的說名也挺詳細,所有步驟只要複製腳本或指令就可以成功執行。只是某些階段如 blast 也可能需要執行兩到三天,要有點心理準備~
如果有想要了解更多的面向,或是說明不清之處,請留言告訴我~
關於作者
謝晨 (Chen Hsieh),臺大園藝暨景觀學系研究所碩士。讀碩士前的興趣是懷著寫點程式妄圖解決農業問題的夢想參加比賽,拿了幾個黑客松與 Open Data 創新應用競賽的獎,卻都沒有勇氣將項目經營下去;研究所期間的興趣轉換成讀學術期刊的出刊電子報。靠著這些興趣當選 107 學年的臺大優秀青年,畢業後在農場旁的研究館辦公室寫點東西,希望可以跟世界分享生物資訊與園藝的樂趣!
感謝選擇匿名的朋友協助校閱初稿與提供意見,也敬請各位讀者不吝指教!
• Website: ChenHsieh.com