iT邦幫忙

2023 iThome 鐵人賽

DAY 24
0
Web 3

我們的基因體時代-Web3 X 去中心化科學DeSci-探索基建系列 第 24

Web3 X 去中心化科學DeSci-數據擁有權和交易(II)-FAIR4RS

  • 分享至 

  • xImage
  •  

前一篇分享在科學界近日關於數據共享和開源的一些原則FAIR,這塊可以作為在web3工具開發數據應用時候的一個準則,而隨者這風氣逐漸擴大,開始進一步針對細節的作法也有些不錯的學術文章可以參考,作為規劃web3數據應用的一個借鑑。

針對軟體概念的FAIR4RS

其實在區塊鏈上的應用或是智能合約,就是一種軟體層應用,如何在軟體曾上對於數據處理具有FAIR特性,就可以參考FAIR4RS的想法,他也是以FAIR四個字母開頭,但內容就更貼近軟體行業的一些說法和工作流。

四個核心特性:可找性(F)、可訪問性(A)、可互操作性(I)和可重用性(R)。

  1. 可找性(F):

    • 軟體及其元數據應易於人類和機器查找。這意味著軟體和相關的元數據應該以一種容易識別和檢索的方式呈現,以便用戶和機器都可以輕鬆找到所需的資源。
  2. 可訪問性(A):

    • 通過標準化協議,用戶可以檢索軟體和其元數據。這保證了軟體資源可以通過網絡或其他方式輕鬆訪問和下載,並且這些協議應該是開放和標準化的,以支持多種不同的訪問和使用方式。
  3. 可互操作性(I):

    • 軟體能夠與其他軟體互操作,這可以通過交換數據和/或元數據,或者通過應用程序編程接口(APIs)實現。這些APIs應該基於開放和標準化的規範和協議,以支持軟體之間的有效互操作和集成。
  4. 可重用性(R):

    • 軟體不僅可以執行(可用),還可以被理解、修改、擴展或集成到其他軟體中(可重用)。這意味著軟體和其相關的元數據應該以一種清晰和開放的方式呈現,以支持用戶和開發者的重用和二次開發。

總之,這四個特性共同確保軟體和元數據的可發現性、可訪問性、可互操作性和可重用性,從而支持軟體的有效使用和共享。

資料數據可以如何被引用

數據集引用上面也有一系列規範和要求逐漸被提出來,這邊文章2019.A data citation roadmap for scholarly data repositories總結和協調了當前主要科學政策機構的建議。此路線圖由存儲庫專家組開發,作為數據引用實施試點(DCIP)項目的一部分,該項目是FORCE11.org和NIH資助的BioCADDIE(https://biocaddie.org)項目的一個倡議。路線圖提出了11項具體建議,分為三個實施階段:a) 支持《數據引用原則聯合聲明》所需的必要步驟;b) 促進文章/數據發布工作流的推薦步驟;c) 由數據存儲庫提供的進一步改進數據引用支持的可選步驟。本文描述了這些建議首次發布18個月後的早期采納情況,特別關注數據集登陸頁面上機器可讀元數據的實施。:

  1. 唯一持久標識符:

    • 所有預計用於引用的數據集必須有一個全球唯一的持久標識符,該標識符應可以表達為明確的URL。
  2. 多層次粒度:

    • 數據集的持久標識符應支持多個粒度層次(在適當的情況下)。
  3. 專用登陸頁面:

    • 以URL形式表達的持久標識符應解析為該數據集的專用登陸頁面,該頁面必須包含描述數據集的元數據。
  4. 機器可讀格式:

    • 持久標識符必須以機器可讀的格式嵌入登陸頁面。
  5. 數據引用支持:

    • 存儲庫必須提供數據引用的文檔和支持。
  6. 引用所需元數據:

    • 登陸頁面應包含用於引用的必要元數據,並且最好也包含以人類可讀和機器可讀格式促進發現的元數據。
  7. JSON-LD格式:

    • 機器可讀的元數據應使用JSON-LD格式的schema.org標記。
  8. HTML元標籤:

    • 元數據應通過HTML元標籤提供,以便參考管理器使用。
  9. 標準引文格式:

    • 元數據應可用BibTeX和/或其他標準文獻格式下載。

可選:

  1. 內容協商:

    • 可以支持schema.org/JSON-LD和其他內容類型的內容協商,以便URL形式的持久標識符直接解析為機器可讀的元數據。
  2. HTTP鏈接頭:

    • 可以支持HTTP鏈接頭來宣傳內容協商選項。

符合FAIR4RS軟體範例

Comet

Comet是一款用於串聯質譜序列數據庫搜索的命令行工具和桌面應用程序。它在bio.tools的生物信息學工具目錄中註冊,擁有全球唯一和持久的標識符(遵循FAIR4RS原則:F1),以及包含豐富元數據(F2),該元數據包括標識符(F3)並且可搜索和可索引(F4)。用戶可以通過在元數據中提供的https鏈接下載Comet(A1)。bio.tools中的元數據與Comet倉庫獨立,即使軟件本身無法訪問,元數據仍將可用(A2)。Comet使用蛋白質組學領域的標準數據類型作為其輸入和輸出數據(I1),這些數據在元數據中作為功能註釋進行了記錄(I2)。該軟件根據Apache 2.0開源許可證進行許可,GitHub上的公開可訪問項目倉庫包含有關其開發的詳細信息(R1)。代碼包括對外部軟件包的依賴,例如Thermo Scientific的MSFileReader庫(R2)。

PuReGoMe

PuReGoMe是一個旨在通過分析實時Twitter數據來理解COVID-19爆發期間荷蘭公眾情緒的項目。該項目提供了一系列Python腳本和Jupyter筆記本以達到此目的。PuReGoMe擁有來自Zenodo的(有版本的)DOI(F1),並在研究軟件目錄中註冊,該目錄捕獲了最相關的元數據(F2),包括標識符(F3),並以可搜索和可索引的形式呈現(F4)。軟件可以從項目存儲庫下載(A1),而元數據可以獨立於註冊表訪問(A2)。PuReGoMe使用標準文件格式(例如,CSV文件)進行數據交換(I1),並引用其他對象,如網站(I2)。該項目使用Apache 2.0開源許可證,GitHub存儲庫有詳細的開發歷史記錄(R1)。代碼包括對其他軟件的依賴,如各種Python庫(R2)。

gammaShiny

gammaShiny是一個應用程序,為R gamma包提供增強的圖形用戶界面,用於處理原位伽馬射線光譜測量,以進行發光定年。gammaShiny已存放在HAL法國國家檔案館中,並具有一個持久的全球唯一標識符(F1),該標識符帶有元數據記錄的HAL標識符和一個SWHID,專門識別Software Heritage通用軟件源代碼檔案上的軟件工件。由於HAL平台的存在,其中許可證是強制性的,gammaShiny根據GNU通用公共許可證v3.0(R1)進行許可。在Software Heritage中存檔的gammaShiny源代碼的版本包括一個可以用SWHID識別的codemeta.json文件,其中包含其他可用的元數據,包括在CodeMeta中命名的依賴性 - ‘softwareRequirements’(R2)。

閱讀參考:
2016,The FAIR Guiding Principles for scientific data management and stewardship

2019, A data citation roadmap for scholarly data repositories

2021,Data sharing practices and data availability upon request differ across scientific disciplines

2022, FAIR Principles for Research Software (FAIR4RS Principles)

2022,Introducing the FAIR Principles for research software


我們的基因體時代是我經營的部落格,如有對於合成生物學、生物資訊、檢驗醫學、資料視覺化、R語言有興趣的話,可以來交流交流!也可以追蹤我的工作IG,但就是偏向醫療為主,假如對去中心化科學有興趣,則可以進入到g0v的da0頻道中多多交流。


上一篇
Web3 X 去中心化科學DeSci-數據擁有權與共享FAIR
下一篇
Web3 X 去中心化科學DeSci-數據Protocol
系列文
我們的基因體時代-Web3 X 去中心化科學DeSci-探索基建30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言