iT邦幫忙

2023 iThome 鐵人賽

DAY 29
2

簡介

在研究 LLM 相關的授權條款時,主要有三個方向:程式碼的授權、資料集的授權與模型權重的授權。有些相對嚴謹的專案,會將這三種東西的授權設定成不同的授權,而有些專案甚至會另外寫一份特別的授權條款。在我們自由研究的階段,可能還不用太在意 License 的問題,但如果當一個專案要準備要公開或商用時,瞭解授權條款來保障彼此的權益,是一個相當重要的課題。

今天就從 LLM 的角度出發,來看看授權條款的相關議題。

可愛貓貓 Day 29

「權」

在談論授權 (License) 之前,可以先來瞭解著作權 (Copyright) 是什麼。著作權是智慧財產權 (Intellectual Property) 的一種,在智慧財產權底下還有商標、專利等等。著作權主要在保障作者與作品的權利,他人未經授權不能任意複製、修改、散布等等。

如果想要使用別人的程式碼,那就會需要對方的授權。開發者通常會放一個 LICENSE 檔案在專案裡面,描述他是如何授權程式碼給大家用的。但即便有了作者的授權,也不代表擁有該作品的著作權。

在 GitHub 瀏覽專案時,可以點進 LICENSE 檔案裡面,如果是常見的授權條款,網頁上面就會很貼心的幫你條列這個條款的一些重點:

GitHub License

在 HF Hub 上面瀏覽模型或資料集時,左邊的 Filter 也有很多 License 可以選:

HF Hub License

種類真的超級多!

常見授權條款

MIT

MIT 是源自麻省理工學院 (Massachusetts Institute of Technology, MIT) 的一種授權條款,是常見的授權條款裡面規範最寬鬆的一條。任何人都可以免費的複製、修改、再發布,只需要在程式碼的副本處放上一個 MIT License 檔案就好,你的整份專案還是可以用其他 License 或者商用等等。

像是 Ruby on Rails 框架與 VS Code 文字編輯器等專案,皆是使用 MIT 授權條款。

GPL & LGPL

GPL (GNU General Public License) 是自由軟體基金會 (Free Software Foundation, FSF) 製作的授權條款,這個條款雖然同樣可以修改與商用,但是要求使用者必須使用相同的授權條款,而且必須跟著開源。在第一版 LLaMA 模型釋出時,就是使用 GPL 授權條款。

因為必須使用相同的授權條款且開源,所以 GPL 專案比較難在閉源的商用專案裡面使用。於是後來出現了 LGPL (GNU Lesser General Public License) 授權條款,如果只是引用該專案的話,並不需要開源或使用相同授權。但如果有修改該專案的話則不適用,也必須跟著開源與使用相同授權。

像是 GCC 編譯器VLC 播放器等專案,都是使用 GPL 授權條款。

Apache 2.0

Apache 由 Apache 軟體基金會所製作,也是個滿寬鬆的授權條款。Apache 條款要求必須標注有修改的部份,也不能用原專案的商標或名稱來推廣衍生專案。

像是 Hugging Face 的 Transformers 框架與 Google 的 Tensorflow 框架等專案,就是使用 Apache 2.0 授權條款。

BSD

BSD (Berkeley Software Distribution) 源自加州大學柏克萊分校 (UC Berkeley),也是個可以自由複製、修改與商用的授權條款。BSD 原本有四條規定,被稱為 BSD 4-Clause,但是因為第四條要求衍生專案必須附上貢獻者名單,很多人覺得很麻煩,於是後來出現了把第四條移除的 BSD 3-Clause。

像是 Numpy 數學運算套件與 Django 後端框架等專案,也是 BSD 授權條款。

CC

以上介紹的授權條款通常都是用在程式碼專案上面,而 CC (Creative Commons) 條款主要針對圖文創作,其中像是訓練資料集就經常使用 CC 條款。在 CC 條款底下還有很多種類,包含:

  • BY 是指必須附上原作者的資訊,這個 BY 源自 Made By XXX 的 By 用法。
  • SA (Share Alike) 衍生作品必須使用相同的授權。
  • NC (Non-Commercial) 不可商用。
  • ND (No Derivative Works) 禁止修改。

所以像是 CC-BY-SA 就是必須附上作者資訊與使用相同授權條款,CC-BY-NC 則是除了需要附上作者名稱之外,還不可以商用的條款。而 CC0 則是代表作者完全放棄他的著作權,其他人想做複製修改都可以。

特殊授權條款

OpenRAIL

機器學習的模型權重又跟程式碼和資料集不太一樣了,在模型上更講究「責任歸屬」的問題,因為多數的 ML 模型都是在做預測,然而預測沒有 100% 正確的。若實際運作時模型出了問題,那責任該如何歸屬?另外,如果有人拿這個模型去做壞事,那模型的作者是否該負起責任?事實上這個議題相當複雜,時至今日還是經常產生訴訟糾紛。

於是 OpenRAIL 誕生了,全名為 Open & Responsible AI License,同樣可以讓大家複製、修改和商用等等,同時也要求使用者必須負起責任,不可以拿來做壞事。如果因為不當使用導致你被抓、被罰款,那模型開發者是不需要負責的。

這個授權條款的目的,是為了降低模型開發者會遇到的法律風險。另外也有 BLOOM 的 BigScience OpenRAIL-m 或 Stable Diffusion 的 CreativeML Open RAIL-M 等不同的版本,也都是類似的聲明。

Llama2 License

第一版的 LLaMA 使用 GPL 授權條款,是比較讓人傷腦筋的授權,許多與 LLaMA 相關的衍生模型,都是使用 Delta Weight 或 LoRA Adapter 的形式釋出。為了調用這些模型,經常需要使用各種不同工具做合併,很麻煩也很耗時。

後來 Llama 2 推出之後,使用了全新的 Llama2 License,這個授權條款讓大家也能複製、修改、再發布等等。這樣大家就不用再畏畏縮縮的,可以直接把微調過的 Llama2-Based 模型權重整個釋出。

在 Llama2 License 中有個有趣的附加商業條款,規定如果使用此模型的服務提供者,月活躍用戶超過七億的話,必須向 Meta 請求額外的許可。

七億欸我的老天鵝!全地球也就七八十億人,到底有哪個服務的月活躍用戶數可以到全球的 10% 啊?大概也只有 Facebook 或 Google 這種超級大公司才有吧。

相關爭議

AI 領域相對於人類歷史而言,是個相當新穎的領域,也因此誕生了許多爭議。像是 GitHub Copilot 去年年底就被提出訴訟,但微軟與 OpenAI 認為 GitHub Copilot 並沒有造成傷害,例如 GitHub Copilot 實際上如何侵害了誰的程式碼等等。

今天年初 Getty Images 控告 Stability AI 將他們網站的圖片用於訓練與營利,已經違反他們的版權規定,甚至生成的圖片上面還有 Getty Images 的浮水印

七月時也有許多作家連署要求,大公司在訓練 AI 時若有用到他們的作品,應該取得同意並給予適當的補償。八月時有人發現 Books3 資料集裡面包含了許多受版權保護的書籍,這是許多模型都有拿來用的資料集,使得這些與訓練資料版權相關的訴訟隨著 AI 的活躍而跟著增長。

前陣子美國著作權局也為了生成式 AI 衍生的版權問題徵求公眾意見,這些訴訟與事件都是相當值得關注的,整個 AI 從訓練到使用,都涉及了非常多版權問題,這些訴訟的判決結果也將左右未來 AI 的開發政策與走向。

結論

今天介紹了一些常見的授權條款,與 AI 面臨的訴訟爭議。身為一個現代的資訊使用者,培養基礎的版權觀念相當重要。在處理海量的訓練資料時,確實很難顧及到每個角落,使每份文本或圖片都是沒有爭議的。

筆者相信,許多開發者都是立意良善,基於熱愛研究與分享的心情在開源自己的成果,這些工具通常是在解決人與機器之間的問題。但是當一份專案走出自己的研究,成為可以被公眾檢視的產品時,就會衍生出許多人與人之間的問題。偏偏社恐如筆者,就是不擅長與人溝通 🥲

最後期許大家,都能當個負責任的 AI 使用者,不要拿 AI 去做壞事,而是用 AI 讓這個世界變得更美好 🤗

參考


上一篇
LLM Note Day 28 - 資料集 Datasets
下一篇
LLM Note Day 30 - 學海無涯,學無止境
系列文
LLM 學習筆記33
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言