iT邦幫忙

2021 iThome 鐵人賽

DAY 11
0
AI & Data

我們的基因體時代-AI, Data和生物資訊系列 第 11

我們的基因體時代-AI, Data和生物資訊 Day11-基因療法中之腺病毒載體與機器學習

上一篇我們的基因體時代-AI, Data和生物資訊 Day10-基因療法中之腺病毒載體與機器學習分享基因治療中所使用的腺病毒相關病毒載體的改造使用機器學習的應用,腺病毒相關病毒是其中一種常用來作為基因療法的載體,因為其對於宿主是無害的,但這也是雙面刃,因為這病毒算是很常流竄在日常人類社會之中,所以常常一般人體內多少有些抗體,所以為了解決這個問題,必須要增加腺病毒外殼的多樣性,以避免送到人體內時,已有中和抗體會降低其效果。腺病毒相關病毒外殼,主要由60個capsid蛋白組成,其中共有三種:VP1(713-738個氨基酸), VP2(580-610個氨基酸), VP3(524-544個氨基酸),如何經由有限的置換其氨基酸來達到最大化可用的多樣性腺病毒相關外殼便能好好利用機器學習來克服這問題。

這篇延續上一篇,來一窺他們實際的算法細節,和相關資料。

https://ithelp.ithome.com.tw/upload/images/20210911/20103989CAEOXLZQbj.png

其機器學習的算法架構,一開始是使用三種策略:complate(C), random(R), additive(A),分別組合成三種資料及,來看其不同設計對於輸出之模型影響,最小的資料集(C1+R2)是指收録1112個單一變異的病毒序列搭配含兩個變異點的病毒序列共1756個,第二組資料(C1+R10)為收錄1112個單一變異的病毒序列加上7908株病毒含有大於等於2個到10個變異點之病毒株,第三組資料(R10+A39)為收錄7908株病毒含有大於等於2個到10個變異點之病毒株加上56472個具有2到39個變異點的病毒株。

然後用這些資料來訓練模型,讓其能藉由序列預測此修改過的病毒株序列能否成功合成病毒外殼,此時他們同時使用三種訓練模型,分別為Logistic regression(LR), Convolutional neural networks(CNNs), recurrent neural networks(RNNs)。這樣就有3X3種可能組合,最後再將其隨機組合成esemble的形式來輸出預測,並且排序21億傯組合序列,並且選出前一百高分數之序列組合。

https://ithelp.ithome.com.tw/upload/images/20210911/20103989AZcn3vMYQD.png
從上面的結果可以看到不同資料集,其在不同模型下,能否提高更多變異差異的病毒株之能力,其中測試了至少201426組變異。上面是模型選擇的序列,下面則是模型設計的序列,可以看到利用機器學習的模型也可以大幅增加各種模型下,在比較多變異下依舊維持多樣性的能力。

https://ithelp.ithome.com.tw/upload/images/20210911/20103989iKZPjgXd5b.png
這邊是其所分享的github頁面,其中有註明會相關連的程式工具:
- PEAR
- Pandas
- Numpy
- BioPython
- PyDNA
- editdistance
- TensorFlow

高通量實驗設計

第一步序列設計原始代碼
第二步轉換資料成晶片合成輸入
第三步模擬實際Cloning結果

病毒外殼定序資料輸入

輸入病毒實驗後定序結果


這個月的規劃貼在這篇文章中我們的基因體時代-AI, Data和生物資訊 Overview,也會持續調整!我們的基因體時代是我經營的部落格,如有對於生物資訊、檢驗醫學、資料視覺化、R語言有興趣的話,可以來交流交流!

閱讀參考

Bryant, D.H., Bashir, A., Sinai, S. et al. Deep diversification of an AAV capsid protein by machine learning. Nat Biotechnol 39, 691–696 (2021). https://doi.org/10.1038/s41587-020-00793-4


上一篇
我們的基因體時代-AI, Data和生物資訊 Day10-基因療法中之腺病毒載體與機器學習
下一篇
我們的基因體時代-AI, Data和生物資訊 Day12-基因療法中之腺病毒載體與機器學習
系列文
我們的基因體時代-AI, Data和生物資訊30

尚未有邦友留言

立即登入留言