RNA-Sick@Day16 > 基因代號進得去，生物意義出得來，GO 發大財｜基因本體論富集分析 feat. Gene Ontology (上)

第 11 屆 iThome 鐵人賽

DAY 16

自我挑戰組

猶豫就會敗北，果斷就會白給｜園藝 boy 的生物資訊冒險記趣，跟上學術潮流不走冤望路 feat. RNA-Sick系列第 16 篇

RNA-Sick@Day16 > 基因代號進得去，生物意義出得來，GO 發大財｜基因本體論富集分析 feat. Gene Ontology (上)

11th鐵人賽 ontology rna-sick enrichment bioinformatics

Chen (Benjamin) Hsieh

2019-10-01 23:49:04

3806 瀏覽

分享至

綜合分析篇來囉

『園藝 boy 的生物資訊冒險記趣，跟上學術潮流不走冤望路』系列共有四部分：「基礎篇」、「轉錄體流程篇」、「綜合分析篇」、以及「學術生活篇」。「基礎篇」提及生物資訊研究所需的電腦操作能力，「轉錄體流程篇」沿著 RNA-Seq 的分析流程帶過節選之軟體與演算法，接下來的「綜合分析篇」銜接於透過 RNA-Seq 取得差異表現基因之後，可以自由選擇進行的相關分析，比如用熱度圖表示基因表現量、依據不同處理比較組之基因表現特徵分群、或是用程式存取 NCBI 資料庫找尋基因資訊等等。

(雖然文章質量持續下降中，但是做少一點總比放棄好，貼張偶像村上隆沒畫完的動畫截圖引以為戒，截圖來自六心公主)

基因本體論富集分析的中心思想

綜合分析第一發要介紹的分析是『基因本體論富集分析』，名字有點長也不好解釋，請先讓我直接用三句話描述使用的場景及目的：

透過 RNA-Seq 取得數千個差異表現基因的名字，濃縮為數十個人類方便理解的詞，用以描述生理調控或供未來試驗設計。

轉錄體流程結束後可能會輸出幾千個差異表現的基因，除非已經是博學多聞的大師，否則整個基因名字列表中，大概只能認得幾個生物化學課教過的基因名字。每個基因的名字其實當初被取名的依據都不一定，有些是直觀地描述其酵素功能 (Superoxide dismutase, SOD)、有些隨著科技的進展會被改名字 (ethylene-forming enzyme, EFE ⇒ ACC oxidase, ACO)、有些則是研究者的惡趣味 (TIME FOR COFFEE, TIC)。

為了有一套共通的描述方式，基因本體論出現啦！所謂本體論 (ontology) 是探討實體 (entity) 之最高性質的學說或科學，可以簡單地想成一個完整的同義詞對照表，整合每個實體的所有的不同描述方式。套用到基因本體論上，基因可能有很多不同的名稱，但是基因被不同的人使用不同的語言談論的時候，指涉的是都是同一個對象，那個對象就是一個實體。

基因可能被描述的場景分成三大類，這三大類也就是基因本體論的三個域/根節點：分子功能 (molecular function)、細胞組成 (cellular component)、生物程序 (biological process)。

Molecular Function, MF: 基因產物在分子層次上的功能，比如說 lyase, ligase, transferase, kinase activity 等等
Cellular Component, CC: 基因產物在細胞中的位置，比如細胞核、核仁、細胞壁等等
Biological Process, BP: 基因產物參與的生物程序，比如修復 DNA、熱逆境反應、賀爾蒙相關訊息傳遞等等

依據上述的分類，每個基因都可以被標上所有相符合的 GO 標籤。如此一來，即使基因名字很費解，看基因被註解的基因本體論條目，就可以快速了解該基因的各種性質。

回到原本的問題，拿到數千個基因，每個基因都有對應的『基因本體論』條目，想知道這群基因的共通點，最簡單的方法就是對每個本體論條目進行「數一數有幾個」，出現最多次的條目，想必就可以描述這堆差異表現基因相關的生理調節啦！不過考量到每一個本體論條目所對應的基因數量不一樣，比如比較廣義的詞 (如：binding) 自然可以被標註在較多基因上，比較詳細的詞 (如：protein-binding) 就只能被標註在比較少的基因上，所以所謂『富集』就是在數一數的過程中，將該物種中的所有對應該條目的「基因數目」也考量進去，否則每次數完之後挑出來的想必都是些廣義的詞～

感興趣的讀者可以到 Gene Ontology 計畫的官方網站瀏覽看看，應該會比較有感覺～今天先簡單介紹基本概念，明天與後天將會分別示範分析平台與視覺化工具。如果有解釋錯誤或不夠詳細的地方請留言告訴我～

參考資料與延伸閱讀

Gene Ontology Resource

關於作者

謝晨 (Chen Hsieh)，臺大園藝暨景觀學系研究所碩士。讀碩士前的興趣是懷著寫點程式妄圖解決農業問題的夢想參加比賽，拿了幾個黑客松與 Open Data 創新應用競賽的獎，卻都沒有勇氣將項目經營下去；研究所期間的興趣轉換成讀學術期刊的出刊電子報。靠著這些興趣當選 107 學年的臺大優秀青年，畢業後卻成了無業的實驗室居民。現在在農場旁的研究館辦公室寫點東西，希望可以跟世界分享生物資訊與園藝的樂趣！

感謝選擇匿名的朋友協助校閱初稿與提供意見，也敬請各位讀者不吝指教！

• E-mail

• Facebook

• Twitter

• Linkedin

• RNA-Sick.me