RNA-Sick@Day10 > 我來組成頭部｜把短片段序列組裝成轉錄體 feat. Trinity

第 11 屆 iThome 鐵人賽

DAY 10

自我挑戰組

猶豫就會敗北，果斷就會白給｜園藝 boy 的生物資訊冒險記趣，跟上學術潮流不走冤望路 feat. RNA-Sick系列第 10 篇

11th鐵人賽 assembly transcriptome rna-sick de novo

Chen (Benjamin) Hsieh

2019-09-25 13:24:15

2761 瀏覽

分享至

最新版本請見：https://chenhsieh.com/post/bioinfo/10-trinity/

神奇的轉錄體拼圖

透過 RNA-Seq 進行轉錄體分析，比起使用微陣列晶片 (microarray) 偵測起基因表現量/轉錄產物量 (transcript level)，除了背景雜訊低以及動態範圍大的優點，最大的優勢還是在於不需要基因體序列。RNA-Seq 流程中次世代定序產出的讀序結果呈現的是轉錄體 cDNA 之碎片序列兩端之讀序，在沒有參考基因體的情況下，只要定序深度足夠，來自同一轉錄產物的讀序結果一定會有重疊片段，因此在強大演算法的作用之下，所有短序列就可以像拼拼圖一樣，靠著重疊的序列拼出整個轉錄體的原貌。這個拼拼圖的過程就是我們這篇中想要帶過的轉錄體新組裝軟體。

但是，一切都在但是之後

這個新組裝轉錄體的流程需要龐大的記憶體，如果是原核生物的話還有可能在一般的家用電腦、筆記型電腦上進行；針對真核之多倍體園藝作物的話，可能需要 128Gb 到 256 Gb 的記憶體。因此如果真的需要自己進行這個流程的話，想必也都是手上有寶器、胸中有決心去讀軟體英文文件的勇者了，這邊便不贅述安裝，僅簡單呈現指令概況。

單一指令就可以開始組裝，記得附上組裝檔案的清單檔案。小心 CPU 執行緒設到最滿的話電腦會真的進入全心全意運算沒有反應的狀態，直到約莫三天後組完為止。最大記憶體雖然可以把 SWAP 的部分算進去，但其內部有些階段還是只認真的記憶體大小，因此會回報錯誤訊息，但執行中斷的話不要緊張，把指令再送一次他會自動讀取已經存成檔案的部分，從上次失敗的地方執行下去，有一定機率會成功 (?)。Trinity 本身的文件其實寫得不錯，花點時間讀一定有收穫。

執行完畢後可以透過上述的 metrics 簡單地看一下該轉錄體的各項指標，當然也有其他更專業的評估工具，詳情請見延伸閱讀之文獻。

關於新組裝轉錄體軟體，印象中兩年前我剛入碩班的時候，還只能看各方軟體大亂鬥，連論壇上前輩的建議也都是先組再說，如果出錯了再回來重組，一切憑感覺挑選軟體。最近又再次查找文獻，發現多了不少針對組裝軟體的綜合評測，各種量化評比標準紛紛上線啦！其中陳倩瑜老師團隊發表於 Scientific Report 的文章標題凝鍊，內容精彩，與大家推薦！

如果有任何實際操作的問題歡迎在下方留言討論，下一回將是緊湊的轉錄體註解！

參考資料與延伸閱讀

De novo transcriptome assembly: A comprehensive cross-species comparison of short-read RNA-Seq assemblers

Comparison of De Novo Transcriptome Assemblers and k-mer Strategies Using the Killifish, Fundulus heteroclitus

Effect of de novo transcriptome assembly on transcript quantification

trinityrnaseq/trinityrnaseq

1071 BioDataMining 20180709
註：陳倩瑜老師在台大生機系開的「資料結構與演算法實務」也是我大學期間奠定程式撰寫基礎的課程之一，內容非常扎實又用心，本人修了兩次ＸＤ老師最近也有不少高質量的 youtube 影片產出，也向大家推薦！

關於作者

謝晨 (Chen Hsieh)，臺大園藝暨景觀學系研究所碩士。讀碩士前的興趣是懷著寫點程式妄圖解決農業問題的夢想參加比賽，拿了幾個黑客松與 Open Data 創新應用競賽的獎，卻都沒有勇氣將項目經營下去；研究所期間的興趣轉換成讀學術期刊的出刊電子報。靠著這些興趣當選 107 學年的臺大優秀青年，畢業後在農場旁的研究館辦公室寫點東西，希望可以跟世界分享生物資訊與園藝的樂趣！

感謝選擇匿名的朋友協助校閱初稿與提供意見，也敬請各位讀者不吝指教！

• Website: ChenHsieh.com