iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 18
0
自我挑戰組

猶豫就會敗北,果斷就會白給|園藝 boy 的生物資訊冒險記趣,跟上學術潮流不走冤望路 feat. RNA-Sick系列 第 18

RNA-Sick@Day18 > 基因代號進得去,生物意義出得來,GO 發大財|基因本體論富集分析 feat. REViGO (下)

詞彙列表的視覺化

基因本體論富集分析,由基因名稱列表濃縮成人類可以理解的詞彙,可以說是一種轉化的過程。

但是這個結果還可以進一步濃縮,由詞彙與輸出數值的表格再近一步轉化成為視覺化的結果。期刊論文上常見的視覺化方向可以分成下列幾種風格:著重詞彙所對應的數值,詞彙展開排排站,長條圖表示他們對應的數值,比如 p-value 或基因數量

詞彙依然展開排排站,對應的資訊則改用顏色呈現數值的熱度圖表示

著重於詞彙之間的關係,以 GO 詞彙本身的關係圖為基底,標記出有富集的詞目

詞彙關係與數值資訊並重者,也就是下文會提到的 REViGO。

視覺化的工具很多,以下表格簡單地提幾個Google 關鍵字一丟就可以搜尋到的工具以及他們的簡單資訊:

其中 AEGIS, REVIGO, GOView 是乍看不用寫程式就可以完成視覺化的工具,經過本人簡單評測之後心得如下:

引用次數於 2018.10.26 調查,其實比較新的工具引用次數自然比較少。

REViGO: REduce+VIsualize Gene Ontology

實際操作很簡單,首先來到 REViGO 的網頁,輸入格式很直觀,一排詞彙一排數值,用 tab 分隔。下方參數簡單勾選,結果不滿意的話就回來重新調整。

其中比較難以理解的大概是所謂的語意相似度 (semantic similarity),但其實影響不大。

有幾種不同的輸出結果,第一種是 scatter plot,可以下載下來用自己電腦上的 R 語言修改繪製細節。網頁介面下也可以自己勾選來調整要顯示的詞彙名字,詞彙標籤也可以拖曳來調整。

第二種是 interactive plot,相似關係用線條表示,每個點點都可以拖曳。可以下載到 cytoscape 中近一步優化畫面。以上兩種方式都是直接用空間關係表示語意的相似程度,但是捨棄了 GO 原有的階層式關係。

第三種是 Tree map,這就比較抽象了,也比較少看到。這個的優勢在於保留了詞彙之間的階層關係。

第四種則是標籤雲,更少看到期刊論文使用,但是用來快速了解影響方向還是很方便地。

最後來看看 REViGO 被引用的文章不乏刊載於高點數期刊的研究,因此可以安心使用。

以上就是簡單的基因本體論富集分析的三篇介紹,從基本概念、富集分析、到視覺化,如果還有交代不清楚的地方請留言告訴我~

參考資料與延伸閱讀

REVIGO Summarizes and Visualizes Long Lists of Gene Ontology Terms

REVIGO summarizes and visualizes long lists of Gene Ontology terms

PANTHER - Gene List Analysis

Semantic space

關於作者

謝晨 (Chen Hsieh),臺大園藝暨景觀學系研究所碩士。讀碩士前的興趣是懷著寫點程式妄圖解決農業問題的夢想參加比賽,拿了幾個黑客松與 Open Data 創新應用競賽的獎,卻都沒有勇氣將項目經營下去;研究所期間的興趣轉換成讀學術期刊的出刊電子報。靠著這些興趣當選 107 學年的臺大優秀青年,畢業後卻成了無業的實驗室居民。現在在農場旁的研究館辦公室寫點東西,希望可以跟世界分享生物資訊與園藝的樂趣!

感謝選擇匿名的朋友協助校閱初稿與提供意見,也敬請各位讀者不吝指教!

E-mail

Facebook

Twitter

Linkedin

RNA-Sick.me


上一篇
RNA-Sick@Day17 > 基因代號進得去,生物意義出得來,GO 發大財|基因本體論富集分析 feat. Panther classification system (中)
下一篇
RNA-Sick@Day19 > 快用你那無敵的非監督機器學習想想辦法吧|依據表現量特徵將基因分群 feat. MAPMAN (上)
系列文
猶豫就會敗北,果斷就會白給|園藝 boy 的生物資訊冒險記趣,跟上學術潮流不走冤望路 feat. RNA-Sick30

尚未有邦友留言

立即登入留言