今日事項:
了解匯集了開源模型的託管平台 HuggingFace。
如果文章對你有幫助的話,歡迎按讚或留言,讓我知道我不是一個人在這裡碎碎念(?),我會很感謝的❤️
在 Day6 怪獸培育場-模型的一千種玩法 的時候我們有提到四種使用 AI 聊天模型的方法,今天我們要來聊聊第三種--從 模型託管平台引用進行雲端部屬。
前面幾天我們提到的模型大多是閉源的,也就是說他把這些神奇寶貝放在自己家的研究所,你要玩的話,要嘛去他們家付錢玩,要嘛按照遠端玩的次數付錢。
這些閉源模型包括 ChatGPT、Gemini、Grok 等我們現在生活中常見的模型。
而除了閉源模型之外,當然也有開源模型
,比如前陣子很紅,說會取代 OpenAI 模型的 DeepSeek 等。當然,前面提到的國際大廠也有推出自己的開源模型來競爭,比如 Google 的 Gemma、OpenAI 的 gpt-oss,還有 XAI 的 Grok2 等等,說明 AI 模型已經呈現出了自己的生態圈,在慢慢成形。
AI 模型現在看起來很好用,但實際上在訓練的過程中要經歷過非常非常非常多的調適
,才可以把模型訓練成我們現在用的這個模樣。
像 GPT-3 就用了 1750 億個參數用以訓練,而可以看到,它還沒有我們想要達到的效果,一直到了 GPT-4 才真正聲名大噪。
而 GPT-4 的參數量可以想像是更大的,雖然沒有公布,但有學者認為那個參數量可能達到兆的級別。
而除了訓練的資料以外,還需要人工去參與、輔助訓練,才能夠把 AI 訓練成一個既聰明又會乖乖聽話
的學生,讓它可以在生成好的結果的同時,又不會出現教唆以自殺或是離婚之類的問題。
那麼問題來了,如果要訓練一個模型就這麼累,那一般人要用自己訓練來用的話不就完全沒辦法?
為什麼要自己訓練?你想想看,如果一個模型只能在別人家用,資料不就全部在別人家裡面了嗎?雖然他說不會洩漏出去,但是信不過啊!
個人還好,但如果是企業之類的呢?
而開源模型的出現,就大大的解決了這個問題。
開源模型可以直接把模型下載下來到本地端跑,甚至可以離線跑,對於大公司或企業來說,真的是非常方便。
但是這時候又有問題出現了。
等等,大公司覺得很讚,是因為他們有錢,有錢買那些貴死人的 GPU 來跑,那我們一般人呢?!
誰說一般人就不需要完開源模型了?但是想玩又沒有錢可以玩啊……
這時候就有公司提出了想法:「不然如果我把 GPU 買回來,然後在網路上租給大家,是不是一個會賺錢的事情?!」
所以,像 colab 等等的雲端運算公司就應運而生了。一台大型的 GPU 要幾百萬,你買不起沒關係,我租你一個小時幾塊到幾十塊,你總買得起了吧?
而今天要介紹的 HuggingFace 的雲端運算功能其實跟 colab 差不多,只是他多了一個功能:「開源模型託管」
。
使用者除了在上面運行自己的模型之外,也可以把自己訓練好的模型放出來跟大家分享,互相進步。而一些大廠,如前面提到的 google、XAI、DeepSeek,或是 meta 的 Llama 甚至一些圖像模型等,也都選擇在這個平台發布自己的開源模型,HuggingFace 儼然成為了 AI 界的 GitHub
。
而模型託管的好處就是,當你要用模型的時候,你不需要先把整個模型下載下來到你的雲端裡--有些模型可能就要到幾十幾百 GB。
當需要用模型的時候,只需要串接 HuggingFace 的 API
,就可以直接選擇要使用哪個或那些模型,非常方便。
而其中的 Space
更是非常酷的功能,把模型結合 Gradio、Streamlit 等等的前端框架,就可以在上面展示自己創建的 AI 應用,並分享給大家使用。
(這個真的很有趣,推薦可以去玩玩看)
今天講的主要是雲端部屬模型的介紹。本來今天還有要講一下 HuggingFace 的 Space 的實作,奈何沒有時間了,只好放在其他天來講。
而 HuggingFace 之所以重要,是因為他大大降低了 AI 模型的使用門檻
,而聚集、託管了許多的模型,更是方便了許多的開發者或測試者,原本需要下載才能用的模型,可以在線上就直接從 API 引用。