上一篇我們的基因體時代-AI, Data和生物資訊 Day05- 深度學習在基因體學的建模架構02上一篇文章明顯可以看出是...因為昨晚有點事情,只好稍微糖塞一下,不過也是很合理的,就是在介紹Day04裡面提到的一些工具,實際上是什麼,這幾天有空也會再補齊一下,就當作是一個資源介紹的篇章,這邊我們繼續往下挑一個生物問題和資料,目前怎麼用機器學習的工具來解決。
想必大家都聽過AlphaFold2,其在今年年中發表後震驚全球,因為蛋白質結構的預測可以說是很多科學家一生的工作,這邊推薦想要更深度理解的話,可以看台灣大學陳倩瑜教授的在20210615課程的Youtube,陳老師在影片中講解得非常清楚,從蛋白質結構的研究史、怎麼評估兩個蛋白質之前相似度、氨基酸之間的共演化現象、怎麼做分類、將結構問題轉換成分類問題、資料強化、氨基酸扭角。
蛋白質是怎麼摺疊的其實是相當複雜的問題,也算是生物領域一個聖杯級的問題,即時到如今幾乎每天都有五篇以上相關折疊論文發表的時代,實際上還是沒有定論,另一方面,生物體中,真核、原核細胞,甚至一個物種的不同蛋白質,其折疊過程都是有不同機制所牽涉的,而且單純從一個氨基酸序列的資訊,其實它會是有一個非常巨大的折疊可能性,下面這個圖來自於Leland Mayne在2017年在PNAS發表的論文The case for defined protein folding pathways中的示意圖,是目前我們怎麼思考蛋白質折疊時候的一個概念,從一串氨基酸序列折成已知樣子的過程,其實就是在尋找熵值最低的狀態,但中間其實會有很多種折疊可能,所以單純用模擬的方式去找尋一個最佳解,運算資源是非常可觀的,而且實際上可能也是不符合真實狀況的,一個序列真實狀況中的折疊狀況,也許只是它局部熵值最低的一種折疊可能!
換句話說,單純從序列本身的物理化學特性,可能沒辦法單純用模擬的方式來做模型預測,另一方面,隨者我們定序技術的進步,我們已經有各式各樣物種在同一基因中,不同序列的版本,以及累積多年的真實世界資料,這就變成機器學習發揮功能的好時機:一個複雜的問題,其數值點間的交互關係不明確,也許就是直接從資料間的關係去建立學習模型。
AlphaFold2的發表,可能一般人不知道這個的重要性,『啊不就是預測它怎麼折的嗎?有什麼了不起的』,這其實是開啟以及鏈接我們目前另一個興起的領域-合成生物學的無限可能(之後會有文章來介紹,合成生物學是什麼),換句話說,我們可以來試圖創造想要的功能,蛋白質在體內的功能有百百種,光是酵素蛋白質,就已經對我們實體社會中有許多應用,更別提設計蛋白質藥物,比如客製化去中和COVID脊蛋白的小抗體,大家以為化學合成的效率比生物合成還便宜許多,其實這只是在小分子的化合物合成,很多複雜化合物,其實單純用化學方法是非常困難的,但是假如我們可以設計相對應的酵素來輔助,那麼效率可能是千倍以上,下面這張顯示用酵素以及不用酵素,特定反應的提速倍率
看到這張圖,可以知道有多誇張了,有的反應可以提速10^7倍,所以當我們可以用AlphaFold2預測蛋白質結構的話,近一步就是可以探索蛋白質設計的領域,然後用此來影響人類的食、衣、住、行。這部分推薦可以關注這領域的大神David Baker,設計蛋白質要考慮的因素還有所使用的生物工廠比如大腸桿菌、酵母菌或是更高等的細胞株,其中有很多細節,他們團隊也在今年開發一整套快速小型中和抗體的開發方法,也已經進入臨床試驗。另外,當可以設計蛋白質後,開啟的就是另一個黑宇宙了,之前參加MIT HTGAA課程時,其中一堂講師DeepCure創辦人Thras Karydis他課程的簡報,這張精美的圖直接讓人對這樣的未來充滿期待!
下一篇我們來細談 AlphaFold2 和 RoseTTAFold的方法
閱讀參考:
S. Walter Englander, Leland Mayne. The nature of protein folding pathway
AlphaFold 2
Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2
AlphaFold 1
Senior, A.W., Evans, R., Jumper, J. et al. Improved protein structure prediction using potentials from deep learning. Nature 577, 706–710 (2020). https://doi.org/10.1038/s41586-019-1923-7
Accurate Prediction of protein structures and interactions using a three-track neural netwrok. 2021. Science
這個月的規劃貼在這篇文章中我們的基因體時代-AI, Data和生物資訊 Overview,也會持續調整!我們的基因體時代是我經營的部落格,如有對於生物資訊、檢驗醫學、資料視覺化、R語言有興趣的話,可以來交流交流!