iT邦幫忙

2021 iThome 鐵人賽

DAY 2
0
AI & Data

我們的基因體時代-AI, Data和生物資訊系列 第 2

我們的基因體時代-AI, Data和生物資訊 Day02- 機器學習在生物資訊中之應用

上一篇我們的基因體時代-AI, Data和生物資訊 Day01- 超越摩爾定律的資料增長介紹了生醫領域在未來將會產生越來越多的資料,甚至可以使用像是DNA當作是儲存工具,另外,還能將這些來自於個人的生醫資訊,建立一個數位替身,來作為很多治療和健康監測的目的,這代表者這些數據將是很好AI發揮功用的地方,所以這邊繼續打鐵趁熱把這主題往下談論。

AI?

Artificial Intelligence實在是個太廣的領域了,我想應該沒有人可以說自己是...AI大師,裡面包山包海的,根據問題和資料類型也會有不同的次領域,這個詞在1930年代就被使用了,當初第一代的科學家像是Alan Turning等等都是這部分的先驅,而後有人分成Superintelligence, General AI, Narrow AI,根據其可以完成的任務內容而做這樣的區分,目前是認為2045年之後是有機會有所謂的General AI,關於AI的進化可以參考Tim Urban的文章:The AI Revolution: The Road to Superintelligence,話說回來,這邊可能會單純分享機器學習的範圍,然後特別去分享其在生物資訊中的應用。

機器學習在生物資訊領域的應用

最近這幾年,機器學習這個名詞開始在生物領域的文章中大噴發,這在以前是完全不用想的,畢竟這個東西對於傳統的實驗生物學家來說太像黑盒子了,但近年來歐美的大學教育中已經漸漸普及在教育這一代的年輕人怎麼活用這個東西,有點像是2000年代的Word, Excel, Powerpoint技能,整體來說,只要能定義清楚一個問題,並且可以有相配套的數據,便能使用機器學習作為解決的工具(通常這個問題都是比想像中複雜,很多尚不清楚影響因子會比較適合,反之,有明確假設和檢定需求,其實用統計方法就可以直球對決了!),下面是目前機器學習用來的應用問題:

  • 從核酸或是氨基酸序列來預測DNA, RNA或蛋白質二級結構
  • 找尋特定基因的功能和問至
  • 辨識核酸或是氨基酸序列中特定的模式
  • 用來作單股核酸變異或是全基因分析問題
  • 疾病的診斷和預測
  • 第三代基因定序Nanopore原始資料的分析
  • 質譜核(MS)或磁共振光譜(NMR)資料分析
  • 藥物的開發和設計

https://ithelp.ithome.com.tw/upload/images/20210902/20103989rZ1G9rk98e.png
從這篇來自Nature Genetics Review,很清楚地把人類基因上結構展示出來,除了但純核酸序列上基因的位置和功能外,其本身還有很多影響的機制,比如立體的折疊結構、上面的化學修飾、相關包覆蛋白質的影響。

機器學習在基因體領域的挑戰和機會

機器學習的一個要點是喂進去的資料是否有代表性,假如用都是來自白種人的資料來預測黃種人的基因數據,那麼結果一定很不適用,目前醫學界大部分的基因體資料都是來自白種人的,下面這張圖顯示了這個嚴重的資料傾斜問題:
https://ithelp.ithome.com.tw/upload/images/20210902/20103989P6hJuZkzCQ.png
由上面的圖可以看到白種人數量佔大多數基因體研究的比例大概快接近80%,這樣得出的結果,對於其他人種的貢獻度就會大大下降,像是下面這篇的研究,直接顯示出這類種族偏差的資料輸入研究,其模型套用在其他人種上,準確度的變化。
https://ithelp.ithome.com.tw/upload/images/20210902/20103989zbo7GVsMXh.png
從上面的圖形可以看出來,假如以這模型對應在歐洲人上的預測效果來看,最好當然是歐洲、再來是美洲、接者是南亞、東亞,最後是非洲,這篇論文主要是在說非洲人的整個AI基因體研究中的資料非常少,以致於這些研究產出的效益基本上沒有辦法提供給非洲人,也揭露了目前在基因體領域中,需要有更多元的資料之議題。

機器學習在臨床上的突進

話說回來,也越來越多機器學習的模型直接被用來當作醫療器材使用,當作是輔助臨床決策所使用,從最近的美國FDA資料,至少有77個以上的AI產品通過認證,裡面有用來分析心臟血管的核磁共振影像、診斷睡眠疾病、糖尿病視網膜病變、皮膚腫瘤病變、電腦斷層中鋒預測、x光骨質預測、血糖變化預測、急診病人分流、乳房攝影、肝肺電腦斷層判讀、心電圖分析、心房震顫、長輩記憶評估、甲狀腺結節分析、放射治療劑量預測、加護病房決策系統、自閉症診斷等等,相信在不久的將來人們將能享受到更便宜快速的相關服務!


這個月的規劃貼在這邊文章中我們的基因體時代-AI, Data和生物資訊 Overview,也會持續調整!我們的基因體時代是我經營的部落格,如有對於生物資訊、檢驗醫學、資料視覺化、R語言有興趣的話,可以來交流交流!


上一篇
我們的基因體時代-AI, Data和生物資訊 Day01- 超越摩爾定律的資料增長
下一篇
我們的基因體時代-AI, Data和生物資訊 Day03- 基因醫學的數據問題
系列文
我們的基因體時代-AI, Data和生物資訊30

尚未有邦友留言

立即登入留言