『園藝 boy 的生物資訊冒險記趣,跟上學術潮流不走冤望路』系列共有四部分:「基礎篇」、「轉錄體流程篇」、「綜合分析篇」、以及「學術生活篇」。「基礎篇」提及生物資訊研究所需的電腦操作能力,「轉錄體流程篇」沿著 RNA-Seq 的分析流程帶過節選之軟體與演算法,接下來的「綜合分析篇」銜接於透過 RNA-Seq 取得差異表現基因之後,可以自由選擇進行的相關分析,比如用熱度圖表示基因表現量、依據不同處理比較組之基因表現特徵分群、或是用程式存取 NCBI 資料庫找尋基因資訊等等。
(雖然文章質量持續下降中,但是做少一點總比放棄好,貼張偶像村上隆沒畫完的動畫截圖引以為戒,截圖來自六心公主)
綜合分析第一發要介紹的分析是『基因本體論富集分析』,名字有點長也不好解釋,請先讓我直接用三句話描述使用的場景及目的:
透過 RNA-Seq 取得數千個差異表現基因的名字,濃縮為數十個人類方便理解的詞,用以描述生理調控或供未來試驗設計。
轉錄體流程結束後可能會輸出幾千個差異表現的基因,除非已經是博學多聞的大師,否則整個基因名字列表中,大概只能認得幾個生物化學課教過的基因名字。每個基因的名字其實當初被取名的依據都不一定,有些是直觀地描述其酵素功能 (Superoxide dismutase, SOD)、有些隨著科技的進展會被改名字 (ethylene-forming enzyme, EFE ⇒ ACC oxidase, ACO)、有些則是研究者的惡趣味 (TIME FOR COFFEE, TIC)。
為了有一套共通的描述方式,基因本體論出現啦!所謂本體論 (ontology) 是探討實體 (entity) 之最高性質的學說或科學,可以簡單地想成一個完整的同義詞對照表,整合每個實體的所有的不同描述方式。套用到基因本體論上,基因可能有很多不同的名稱,但是基因被不同的人使用不同的語言談論的時候,指涉的是都是同一個對象,那個對象就是一個實體。
基因可能被描述的場景分成三大類,這三大類也就是基因本體論的三個域/根節點:分子功能 (molecular function)、細胞組成 (cellular component)、生物程序 (biological process)。
依據上述的分類,每個基因都可以被標上所有相符合的 GO 標籤。如此一來,即使基因名字很費解,看基因被註解的基因本體論條目,就可以快速了解該基因的各種性質。
回到原本的問題,拿到數千個基因,每個基因都有對應的『基因本體論』條目,想知道這群基因的共通點,最簡單的方法就是對每個本體論條目進行「數一數有幾個」,出現最多次的條目,想必就可以描述這堆差異表現基因相關的生理調節啦!不過考量到每一個本體論條目所對應的基因數量不一樣,比如比較廣義的詞 (如:binding) 自然可以被標註在較多基因上,比較詳細的詞 (如:protein-binding) 就只能被標註在比較少的基因上,所以所謂『富集』就是在數一數的過程中,將該物種中的所有對應該條目的「基因數目」也考量進去,否則每次數完之後挑出來的想必都是些廣義的詞~
感興趣的讀者可以到 Gene Ontology 計畫的官方網站瀏覽看看,應該會比較有感覺~今天先簡單介紹基本概念,明天與後天將會分別示範分析平台與視覺化工具。如果有解釋錯誤或不夠詳細的地方請留言告訴我~
關於作者
謝晨 (Chen Hsieh),臺大園藝暨景觀學系研究所碩士。讀碩士前的興趣是懷著寫點程式妄圖解決農業問題的夢想參加比賽,拿了幾個黑客松與 Open Data 創新應用競賽的獎,卻都沒有勇氣將項目經營下去;研究所期間的興趣轉換成讀學術期刊的出刊電子報。靠著這些興趣當選 107 學年的臺大優秀青年,畢業後卻成了無業的實驗室居民。現在在農場旁的研究館辦公室寫點東西,希望可以跟世界分享生物資訊與園藝的樂趣!
感謝選擇匿名的朋友協助校閱初稿與提供意見,也敬請各位讀者不吝指教!