iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 15
0
自我挑戰組

猶豫就會敗北,果斷就會白給|園藝 boy 的生物資訊冒險記趣,跟上學術潮流不走冤望路 feat. RNA-Sick系列 第 15

RNA-Sick@Day15 > 銀河在呼喚我|在網頁介面下完成轉錄體分析流程 feat. Galaxy

轉錄體流程篇回顧

經歷了基礎篇與轉錄體流程篇的洗禮,想必各位讀者也已經從被趕上架的鴨子編成獨當一面的烤鴨了,來回味一下整個轉錄體流程的概況吧!

RNA-Sick@Day8 > Raw Data 是什麼,能吃嗎?| 一鍵了解序列品質 feat. FastQC
次世代定序輸出檔案為 fastq 格式,使用 fastQC 馬上了解定序品質!

RNA-Sick@Day9 > 斷開序列,斷開一切的牽連|把品質不佳的序列剔除掉 feat. Trimmomatic
用 Trimmomatic 將品質不佳的序列修剪掉!

RNA-Sick@Day10 > 我來組成頭部|把短片段序列組裝成轉錄體 feat. Trinity
沒有參考基因體的話,就自己組一個轉錄體吧!

RNA-Sick@Day11 > 轉錄體補完計畫|比對線上資料庫註解序列 feat. Trinotate
自己組好轉錄體之後,使用 Trinotate 套裝流程註解每一條轉錄產物!

RNA-Sick@Day12 > 路遙知馬力,日久見人心|用燕尾服套裝將序列比對到參考對象上 feat. Bowtie2
將次世代定序的讀序結果短序列透過 Bowtie2 比對貼回轉錄體上定量!

RNA-Sick@Day13 > 萬物皆虛,萬事皆允|不用 alignment 推估表現量 feat. kallisto
嫌比對短序列到整個轉錄體太慢的話,來試試不用比對 (alignment-free) 也可以定量的 kallisto 吧!結果也一樣準喔!

RNA-Sick@Day14 > 檢定只是裝飾而已,上面的大人物是不會懂的|篩選表現量有顯著差異的基因 feat. edgeR
取得轉錄產物豐富度的觀測值後,使用 edgeR 來進行統計檢定篩選表現量有顯著差異的 DEG 吧!

如果讀到這邊為止的所有操作都沒有問題的話,想必也是與電腦相當熟悉的賽博格了。但是有時候還是會有點懶,能不打指令還是希望可以不用打指令阿~


(身為無業遊民,有沒有放颱風假都差不多~截圖來自遊戲 BirdGut)

Galaxy 幫你把分析全部放到網頁上

Galaxy Project 是一個基於網頁的操作平台,讓使用者可以在瀏覽器中完成重資料量的生物醫學相關研究。上述整個轉錄體流程篇的所有工具都可以在網頁上完成,不用自己安裝也不用自己開終端機下指令。以下就來簡單地體驗一下 Galaxy 的魅力吧!

首先來到 https://usegalaxy.org/

操作介面分成三大部分,最左邊的欄位是所有工具的分類列表,最右邊的欄位是使用者上傳的資料或正在進行中的運算作業,中間則是主要顯示欄位,當點選左側的工具或右側的資料時中間欄位用以顯示工具參數設定或資料之細節。

左側工具林林總總非常豐富,從簡單的表格資料欄位間加減、胺基酸序列 motif 分析、fastQC 資料品質、甚至是高運算需求的轉錄體組裝工具都有。

我們簡單地以一個小資料表格的相減為例示範操作的感覺~

首先我們想要整理的 csv 資料表格用 excel 開啟的話長這樣,最左邊是編號,第二三四欄位是一些觀測值,最右邊的欄位則是類似附註的 trinity 編號

首先要使用 galaxy 分析的話就要先上傳檔案到平台上,選擇左側的 Get DataUpload File 來到資料上傳介面

直接拖曳想要上傳的檔案進入該區即可,系統會自動辨識檔案類型,也可以自己選取 csv 格式

畢竟是雲端化的分析流程,即使只是上傳小小的檔案也需要個十幾秒的時間,上傳並準備完畢後,就可以在右側看到該資料的標籤,點選之後會在中間顯示該資料的細節

確定資料沒有問題之後,我們就可以由左側欄位選取想要使用的工具,這邊示範一個簡單的資料表格欄位相減,該工具在 GENERAL TEXT TOOLSText ManipulationCompute,顯示在中間的欄位就是各項可以調教的參數,比如:最基本的欄位運算表達 (Add expression)、是否將計算結果四捨五入成整數 (Round result?)、應該將計算結果儲存於哪個新的欄位中 (Skip a header line, The new column name) 等等設定,調整完畢就可以按下 Execute

將要運算的工作送出之後並不會馬上執行,該工作會在右側的欄位出現一個灰色的狀態標籤,表示系統還在準備狀態中

而該工作真的已經開始運算的話,右側相對應的標籤會變成黃橘色的

運算完畢右側欄位的標籤就會變成綠色,選後就可以看到剛剛設定的運算結果,[column 2 + column 3 的加總]已經計算完並且儲存在最右邊新增的 column 中啦

這邊再加碼另一個工具的示範希望會比較有感,前面介紹過的 Trimmomatic 也可以在 Galaxy 上使用,由左側的 GENOMIC FILE MANIPULATION 分類中選取 FASTQ Quality ControlTrimmomatic,就可以來到這個工具的參數設定區

設定區的各項參數完全對應到原始工具所可以設定的各項參數,而且只要把頁面往下拉,就可以馬上看到參數的詳細說明

更方便的是,將頁面拉到底,就可以看到這個工具的原始發表文章,不用怕寫文章的時候找不到該引用哪篇工具的文獻啦!

Galaxy project 是開源的,也就是說,任何具有運算資源的單位,都可以在自己的伺服器上架設供他人使用的 Galaxy 平台。

  • Galaxy 的優點是
    1. 集所有工具於單一視窗中
    2. 不用打眼花撩亂的指令碼
    3. 不用在各個視窗之間切換找使用說明
      想必可以大幅減輕使用者的負擔。
  • 缺點大概就是
    1. 需要將未發表的資料上傳到別人架設的伺服器上
    2. 雲端化的分析流程運算效能受架設的人的伺服器限制 (台大校內也有單位合作架設 Galaxy,但是當初要用的時候轉錄體組裝這個項目可能就要排隊好幾個月才輪得到運算資源開始組)
    3. 對於熟練的電腦使用者來說其實還是打字下指令比滑鼠點來點去來得快。

總地來說,我覺得 Galaxy 作為一個初學的平台其實很棒,實驗室內有工作站電腦的話,Galaxy 做為資料交流或分析流程呈現的工具也很適合,馬上手刀去試用吧!

參考資料與延伸閱讀

Galaxy

關於作者

謝晨 (Chen Hsieh),臺大園藝暨景觀學系研究所碩士。讀碩士前的興趣是懷著寫點程式妄圖解決農業問題的夢想參加比賽,拿了幾個黑客松與 Open Data 創新應用競賽的獎,卻都沒有勇氣將項目經營下去;研究所期間的興趣轉換成讀學術期刊的出刊電子報。靠著這些興趣當選 107 學年的臺大優秀青年,畢業後卻成了無業的實驗室居民。現在在農場旁的研究館辦公室寫點東西,希望可以跟世界分享生物資訊與園藝的樂趣!

感謝選擇匿名的朋友協助校閱初稿與提供意見,也敬請各位讀者不吝指教!

E-mail

Facebook

Twitter

Linkedin

RNA-Sick.me


上一篇
RNA-Sick@Day14 > 檢定只是裝飾而已,上面的大人物是不會懂的|篩選表現量有顯著差異的基因 feat. edgeR
下一篇
RNA-Sick@Day16 > 基因代號進得去,生物意義出得來,GO 發大財|基因本體論富集分析 feat. Gene Ontology (上)
系列文
猶豫就會敗北,果斷就會白給|園藝 boy 的生物資訊冒險記趣,跟上學術潮流不走冤望路 feat. RNA-Sick30

尚未有邦友留言

立即登入留言