iT邦幫忙

2025 iThome 鐵人賽

DAY 14
0

前言

今天來講一個頗為重要的議題,就是有關 LLM 的表現

之前在無預警的請況下從 Llama3.2 調整成 Gemma3,很大程度上是因為,Llama 系列一直以來在中文的表現就不是很好,反倒是發展較長的 Mistral 與 Gemma3 表現比較好,中國那邊訓練的模型更不用說,他們的資料及應以中文的為主,所以對中文的回答表現也會比較好。

所以這次除了比對西方國家訓練的模型,也要測試一下在中文圈較有名的模型

測試比較

  • Gemma3:12b

    • 關於內輪差的敘述,何者錯誤?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224Na0nv8cF0U.png

    • 騎機車時若發現煞車系統失靈,第一時間應如何作較為適當?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224bPmNbAUlZj.png

  • mistral:7b

    • 關於內輪差的敘述,何者錯誤?
      https://ithelp.ithome.com.tw/upload/images/20251005/201612243KLeGNQYGI.png

    • 騎機車時若發現煞車系統失靈,第一時間應如何作較為適當?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224xtKRx5e2MY.png

  • llama3.2:3b

    • 關於內輪差的敘述,何者錯誤?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224cgi7w2ymUY.png

    • 騎機車時若發現煞車系統失靈,第一時間應如何作較為適當?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224VRmomfU8TU.png

  • gpt-oss:20b

    • 關於內輪差的敘述,何者錯誤?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224vJmBzIe2Sw.png

    • 騎機車時若發現煞車系統失靈,第一時間應如何作較為適當?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224PeiwR1YJKo.png

  • deepseek-r1:7b

    • 關於內輪差的敘述,何者錯誤?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224nvZ6qf0IM0.png

    • 騎機車時若發現煞車系統失靈,第一時間應如何作較為適當?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224kObcK6D3MK.png

  • qwen3:14b

    • 關於內輪差的敘述,何者錯誤?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224zYgnYqj0PE.png

    • 騎機車時若發現煞車系統失靈,第一時間應如何作較為適當?
      https://ithelp.ithome.com.tw/upload/images/20251005/20161224XJtZFyY9Qe.png


最後想說

我們可以把模型的參數量量化成人類的腦容量,頭腦有多少神經元,就可以儲存多少語言的字典 (Vocabulary),綜合上述結果可以看出,除了 llama3.2 的表現異於常人 (反串),其他的模型皆有有缺點,有的不會從 RAG 的搜尋結果裡面找答案,有的會。

而不同的模型又有不同的回覆風格,像是 deepseek 與 qwen 兩個模型會顯示他的思考過程 (也沒有辦法確認是不是真的會比較準),其實做 RAG 的話,Mistral 在這邊應該輸出的話會很多,但在這邊異常少倒是有點出乎意料。


上一篇
[Day 19] Rag & Gradio 的協奏曲!
下一篇
[Day 21] MCP - 人機協作的新時代核心
系列文
一塊一塊拼湊的 AI 樂高世界之旅23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言