藥物的開發通常會經過五個階段,新藥探索、價值確效、動物實驗、臨床試驗和新藥上市,時程常達10年,花費10億美金以上,所以藥廠會選擇常見的疾病來開發藥物,主要是罕見疾病較難回收開發的經費,因此只要能在這5個階段任何一段加速速度,就能節省巨大的時間與成本,病人也能夠及早取得治療的新藥物。
在AI技術尚未成熟前,通常會由科學家在實驗室透過電腦組合不同化學分子結構來產生新化合物,但因為化學結構非常複雜,各種不同角度的組合就能生成上千萬種化合物,根據pubchem資料庫,目前已經發現9千多萬種以上的化合物,且每天還在持續增加中,而美國食品藥品監督管理局FDA所認證藥物才2千多種,所以就算電腦運算速度在快,錯綜複達的化學結構也導致難以發現新藥,因此如何導入AI來預測潛在藥物或結構,是未來很熱門的議題之一。
潛在藥物活性預測
目前AI所能加速的階段為第一階段藥物探索,通常會以AI學習現有藥物的性質來預測出新疾病的先導化合物,先導化合物和疾病結合能夠有足夠的活性表現,再經由科學家修飾先導化合物結構,減低藥物毒性、副作用才會進入下一階段的實驗。
潛在藥物生成
前章節有提到GAN模型能夠生成任何以假亂真的資料,因此科學家大部分以修改GAN模型來產生新的潛在藥物,以現有的pubchem 9千多萬種化合物加上FDA認證藥物當成訓練資料,讓GAN能夠學習出藥物的性質分布,再透過抽樣法就能得到新的潛在藥物。
雖然目前化合物的資料庫已經很完備、量大,但實際有效的訓練集其實非常少,因為FDA有效藥物最多就2千多種,而針對各種疾病的有效藥物甚至更少,但GAN通常需要龐大的有效資料訓練才能有好結果,所以目前基於生成模型所產生的潛在藥物實際上能夠進入下一階段的量也非常的少。