這一系列文章中我們探討了從開放科學的脈絡到Web3,以及近期去中心化科學的運動,往下去討論一下資料結構也許可以將科學發表和區塊鏈技術結合,這邊則來分享一些實際區塊鏈的應用想像,比如用來處理基因數據。
這一篇來自耶魯大學計算生物學系與生物資訊學系主任馬克·本德·歌詩坦 (Mark Bender Gerstein)實驗室近期的研究,其很仔細地發表了一個針對人類基因數據如何在使用區塊鏈技術做索引,並且保有能分析和搜尋的能力,因為目前如IPFS等架構,大都是用檔案為單位方式去處理資料,但基因數據的重點其實是如何去進一步做分析,所以把檔案壓成一個Hash後,就失去這樣功能,這邊則是針對這個問題去做探討。
以序列為本質去做資料儲存的核心,擁有權放置在區塊鏈上,讓圍繞這資料的人員可以進行交互。
其圍繞常用的SAM格式做設計,SAM為一個重要的檔案格式,可參考去年寫的文章:我們的基因體時代-AI, Data和生物資訊 Day15- 組裝後的序列檔案格式SAM, BAM,而這篇SAMchain的概念就是基於SAM資料上面的資訊去處理跟區塊結合,並且整合進去常用的生物資訊工具。
定義好哪些資料使用區塊鏈儲存,哪些分開上鍊。
另外,這邊一張資料圖示,其實代表蠻重要的想法,就是基因數據不應該要全部使用區塊鏈的方式去儲存,因為其相對應的成本就是時間和速度,但基因數據很重要的是能否被進行使用和分享,這塊就是必須要考慮進去的,或許同樣都是基因數據,本質上還是有一些價值上的差別,從資料->資訊->知識,假如能高層次的去區分,把高價值的知識使用區塊鏈處理,其他可以分成來做運作,或許會更適合。
閱讀參考
Storing and analyzing a genome on a blockchain. 2022
(https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02699-7)
SAMchain technology: how to own your own genes(https://aibc.world/news/samchain-technology-how-to-own-your-own-genes/)
我們的基因體時代是我經營的部落格,如有對於合成生物學、生物資訊、檢驗醫學、資料視覺化、R語言有興趣的話,可以來交流交流!