LLM Note Day 29 - 授權條款 License - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 29

AI & Data

LLM 學習筆記系列第 29 篇

LLM Note Day 29 - 授權條款 License

15th鐵人賽 license llm responsibility

Penut Chen

團隊消波塊上的海洋貓貓

2023-10-14 08:42:55

3891 瀏覽

分享至

簡介

在研究 LLM 相關的授權條款時，主要有三個方向：程式碼的授權、資料集的授權與模型權重的授權。有些相對嚴謹的專案，會將這三種東西的授權設定成不同的授權，而有些專案甚至會另外寫一份特別的授權條款。在我們自由研究的階段，可能還不用太在意 License 的問題，但如果當一個專案要準備要公開或商用時，瞭解授權條款來保障彼此的權益，是一個相當重要的課題。

今天就從 LLM 的角度出發，來看看授權條款的相關議題。

可愛貓貓 Day 29

「權」

在談論授權 (License) 之前，可以先來瞭解著作權 (Copyright) 是什麼。著作權是智慧財產權 (Intellectual Property) 的一種，在智慧財產權底下還有商標、專利等等。著作權主要在保障作者與作品的權利，他人未經授權不能任意複製、修改、散布等等。

如果想要使用別人的程式碼，那就會需要對方的授權。開發者通常會放一個 LICENSE 檔案在專案裡面，描述他是如何授權程式碼給大家用的。但即便有了作者的授權，也不代表擁有該作品的著作權。

在 GitHub 瀏覽專案時，可以點進 LICENSE 檔案裡面，如果是常見的授權條款，網頁上面就會很貼心的幫你條列這個條款的一些重點：

GitHub License

在 HF Hub 上面瀏覽模型或資料集時，左邊的 Filter 也有很多 License 可以選：

HF Hub License

種類真的超級多！

常見授權條款

MIT

MIT 是源自麻省理工學院 (Massachusetts Institute of Technology, MIT) 的一種授權條款，是常見的授權條款裡面規範最寬鬆的一條。任何人都可以免費的複製、修改、再發布，只需要在程式碼的副本處放上一個 MIT License 檔案就好，你的整份專案還是可以用其他 License 或者商用等等。

像是 Ruby on Rails 框架與 VS Code 文字編輯器等專案，皆是使用 MIT 授權條款。

GPL & LGPL

GPL (GNU General Public License) 是自由軟體基金會 (Free Software Foundation, FSF) 製作的授權條款，這個條款雖然同樣可以修改與商用，但是要求使用者必須使用相同的授權條款，而且必須跟著開源。在第一版 LLaMA 模型釋出時，就是使用 GPL 授權條款。

因為必須使用相同的授權條款且開源，所以 GPL 專案比較難在閉源的商用專案裡面使用。於是後來出現了 LGPL (GNU Lesser General Public License) 授權條款，如果只是引用該專案的話，並不需要開源或使用相同授權。但如果有修改該專案的話則不適用，也必須跟著開源與使用相同授權。

像是 GCC 編譯器與 VLC 播放器等專案，都是使用 GPL 授權條款。

Apache 2.0

Apache 由 Apache 軟體基金會所製作，也是個滿寬鬆的授權條款。Apache 條款要求必須標注有修改的部份，也不能用原專案的商標或名稱來推廣衍生專案。

像是 Hugging Face 的 Transformers 框架與 Google 的 Tensorflow 框架等專案，就是使用 Apache 2.0 授權條款。

BSD

BSD (Berkeley Software Distribution) 源自加州大學柏克萊分校 (UC Berkeley)，也是個可以自由複製、修改與商用的授權條款。BSD 原本有四條規定，被稱為 BSD 4-Clause，但是因為第四條要求衍生專案必須附上貢獻者名單，很多人覺得很麻煩，於是後來出現了把第四條移除的 BSD 3-Clause。

像是 Numpy 數學運算套件與 Django 後端框架等專案，也是 BSD 授權條款。

CC

以上介紹的授權條款通常都是用在程式碼專案上面，而 CC (Creative Commons) 條款主要針對圖文創作，其中像是訓練資料集就經常使用 CC 條款。在 CC 條款底下還有很多種類，包含：

BY 是指必須附上原作者的資訊，這個 BY 源自 Made By XXX 的 By 用法。
SA (Share Alike) 衍生作品必須使用相同的授權。
NC (Non-Commercial) 不可商用。
ND (No Derivative Works) 禁止修改。

所以像是 CC-BY-SA 就是必須附上作者資訊與使用相同授權條款，CC-BY-NC 則是除了需要附上作者名稱之外，還不可以商用的條款。而 CC0 則是代表作者完全放棄他的著作權，其他人想做複製修改都可以。

特殊授權條款

OpenRAIL

機器學習的模型權重又跟程式碼和資料集不太一樣了，在模型上更講究「責任歸屬」的問題，因為多數的 ML 模型都是在做預測，然而預測沒有 100% 正確的。若實際運作時模型出了問題，那責任該如何歸屬？另外，如果有人拿這個模型去做壞事，那模型的作者是否該負起責任？事實上這個議題相當複雜，時至今日還是經常產生訴訟糾紛。

於是 OpenRAIL 誕生了，全名為 Open & Responsible AI License，同樣可以讓大家複製、修改和商用等等，同時也要求使用者必須負起責任，不可以拿來做壞事。如果因為不當使用導致你被抓、被罰款，那模型開發者是不需要負責的。

這個授權條款的目的，是為了降低模型開發者會遇到的法律風險。另外也有 BLOOM 的 BigScience OpenRAIL-m 或 Stable Diffusion 的 CreativeML Open RAIL-M 等不同的版本，也都是類似的聲明。

Llama2 License

第一版的 LLaMA 使用 GPL 授權條款，是比較讓人傷腦筋的授權，許多與 LLaMA 相關的衍生模型，都是使用 Delta Weight 或 LoRA Adapter 的形式釋出。為了調用這些模型，經常需要使用各種不同工具做合併，很麻煩也很耗時。

後來 Llama 2 推出之後，使用了全新的 Llama2 License，這個授權條款讓大家也能複製、修改、再發布等等。這樣大家就不用再畏畏縮縮的，可以直接把微調過的 Llama2-Based 模型權重整個釋出。

在 Llama2 License 中有個有趣的附加商業條款，規定如果使用此模型的服務提供者，月活躍用戶超過七億的話，必須向 Meta 請求額外的許可。

七億欸我的老天鵝！全地球也就七八十億人，到底有哪個服務的月活躍用戶數可以到全球的 10% 啊？大概也只有 Facebook 或 Google 這種超級大公司才有吧。

結論

今天介紹了一些常見的授權條款，與 AI 面臨的訴訟爭議。身為一個現代的資訊使用者，培養基礎的版權觀念相當重要。在處理海量的訓練資料時，確實很難顧及到每個角落，使每份文本或圖片都是沒有爭議的。

筆者相信，許多開發者都是立意良善，基於熱愛研究與分享的心情在開源自己的成果，這些工具通常是在解決人與機器之間的問題。但是當一份專案走出自己的研究，成為可以被公眾檢視的產品時，就會衍生出許多人與人之間的問題。偏偏社恐如筆者，就是不擅長與人溝通 🥲

最後期許大家，都能當個負責任的 AI 使用者，不要拿 AI 去做壞事，而是用 AI 讓這個世界變得更美好 🤗

參考

LLM Note Day 28 - 資料集 Datasets

LLM Note Day 30 - 學海無涯，學無止境

系列文

LLM 學習筆記共 33 篇

RSS系列文訂閱系列文

97 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

LLM 學習筆記系列 第 29 篇