前一篇分享在科學界近日關於數據共享和開源的一些原則FAIR,這塊可以作為在web3工具開發數據應用時候的一個準則,而隨者這風氣逐漸擴大,開始進一步針對細節的作法也有些不錯的學術文章可以參考,作為規劃web3數據應用的一個借鑑。
其實在區塊鏈上的應用或是智能合約,就是一種軟體層應用,如何在軟體曾上對於數據處理具有FAIR特性,就可以參考FAIR4RS的想法,他也是以FAIR四個字母開頭,但內容就更貼近軟體行業的一些說法和工作流。
四個核心特性:可找性(F)、可訪問性(A)、可互操作性(I)和可重用性(R)。
可找性(F):
可訪問性(A):
可互操作性(I):
可重用性(R):
總之,這四個特性共同確保軟體和元數據的可發現性、可訪問性、可互操作性和可重用性,從而支持軟體的有效使用和共享。
數據集引用上面也有一系列規範和要求逐漸被提出來,這邊文章2019.A data citation roadmap for scholarly data repositories總結和協調了當前主要科學政策機構的建議。此路線圖由存儲庫專家組開發,作為數據引用實施試點(DCIP)項目的一部分,該項目是FORCE11.org和NIH資助的BioCADDIE(https://biocaddie.org)項目的一個倡議。路線圖提出了11項具體建議,分為三個實施階段:a) 支持《數據引用原則聯合聲明》所需的必要步驟;b) 促進文章/數據發布工作流的推薦步驟;c) 由數據存儲庫提供的進一步改進數據引用支持的可選步驟。本文描述了這些建議首次發布18個月後的早期采納情況,特別關注數據集登陸頁面上機器可讀元數據的實施。:
唯一持久標識符:
多層次粒度:
專用登陸頁面:
機器可讀格式:
數據引用支持:
引用所需元數據:
JSON-LD格式:
HTML元標籤:
標準引文格式:
內容協商:
HTTP鏈接頭:
Comet是一款用於串聯質譜序列數據庫搜索的命令行工具和桌面應用程序。它在bio.tools的生物信息學工具目錄中註冊,擁有全球唯一和持久的標識符(遵循FAIR4RS原則:F1),以及包含豐富元數據(F2),該元數據包括標識符(F3)並且可搜索和可索引(F4)。用戶可以通過在元數據中提供的https鏈接下載Comet(A1)。bio.tools中的元數據與Comet倉庫獨立,即使軟件本身無法訪問,元數據仍將可用(A2)。Comet使用蛋白質組學領域的標準數據類型作為其輸入和輸出數據(I1),這些數據在元數據中作為功能註釋進行了記錄(I2)。該軟件根據Apache 2.0開源許可證進行許可,GitHub上的公開可訪問項目倉庫包含有關其開發的詳細信息(R1)。代碼包括對外部軟件包的依賴,例如Thermo Scientific的MSFileReader庫(R2)。
PuReGoMe是一個旨在通過分析實時Twitter數據來理解COVID-19爆發期間荷蘭公眾情緒的項目。該項目提供了一系列Python腳本和Jupyter筆記本以達到此目的。PuReGoMe擁有來自Zenodo的(有版本的)DOI(F1),並在研究軟件目錄中註冊,該目錄捕獲了最相關的元數據(F2),包括標識符(F3),並以可搜索和可索引的形式呈現(F4)。軟件可以從項目存儲庫下載(A1),而元數據可以獨立於註冊表訪問(A2)。PuReGoMe使用標準文件格式(例如,CSV文件)進行數據交換(I1),並引用其他對象,如網站(I2)。該項目使用Apache 2.0開源許可證,GitHub存儲庫有詳細的開發歷史記錄(R1)。代碼包括對其他軟件的依賴,如各種Python庫(R2)。
gammaShiny是一個應用程序,為R gamma包提供增強的圖形用戶界面,用於處理原位伽馬射線光譜測量,以進行發光定年。gammaShiny已存放在HAL法國國家檔案館中,並具有一個持久的全球唯一標識符(F1),該標識符帶有元數據記錄的HAL標識符和一個SWHID,專門識別Software Heritage通用軟件源代碼檔案上的軟件工件。由於HAL平台的存在,其中許可證是強制性的,gammaShiny根據GNU通用公共許可證v3.0(R1)進行許可。在Software Heritage中存檔的gammaShiny源代碼的版本包括一個可以用SWHID識別的codemeta.json文件,其中包含其他可用的元數據,包括在CodeMeta中命名的依賴性 - ‘softwareRequirements’(R2)。
閱讀參考:
2016,The FAIR Guiding Principles for scientific data management and stewardship
2019, A data citation roadmap for scholarly data repositories
2021,Data sharing practices and data availability upon request differ across scientific disciplines
2022, FAIR Principles for Research Software (FAIR4RS Principles)
2022,Introducing the FAIR Principles for research software
我們的基因體時代是我經營的部落格,如有對於合成生物學、生物資訊、檢驗醫學、資料視覺化、R語言有興趣的話,可以來交流交流!也可以追蹤我的工作IG,但就是偏向醫療為主,假如對去中心化科學有興趣,則可以進入到g0v的da0頻道中多多交流。