SLM、LLM、VLM 都是 LLM,它們之間的差異在哪裡?AI Agent、Agentic AI 是不是只是把兩個字交換位置?向量是什麼樣的概念?
這篇文章的目的在於彙整這些專有名詞,並且提供一些補充說明(更簡單口語化的說明)。雖然鐵人賽的文章在發佈後就不能再修改,但是這篇文章會同步發佈到我的個人 GitHub 上,希望即使是過了鐵人賽,這篇文章也能夠持續更新。
補充說明:
如何定義「小型」與「大型」?
筆者認爲單純的以「參數量」來區分並不合適,隨著硬體技術進步,或許現階段的「大型」模型,在未來也能被視爲「小型」模型。因此,筆者認爲應該以當前主流的消費級硬體(個人筆電)爲分界線,能夠在消費級硬體上執行的模型即爲「小型」,反之則爲「大型」
補充說明:
筆者認爲「向量」一詞對於非專業人士來說較爲抽象,在此舉一個較爲生活化的例子來說明,想請各位使用「數字」描述自己。你會怎麼描述?
由筆者先開始:
[25, 8, 162, 55, 118]
這 5 個神密數字分別代表:8 月出生、25 歲、身高 162 公分、體重 55 公斤、畢業於臺科大(學校 IP)那麼,這 5 個數字就可以視爲是筆者的「向量表示」,而這個向量表示可以用來與其他人的向量表示做比較,看看彼此之間的相似度(例如:年齡、身高、體重等)。當然,向量表示並不完美,因爲它無法「完美」的去描述一個人,這是向量表示的限制之一(因爲它將資訊壓縮了)
補充說明:
專家混合架構(MoE)的核心概念在於「各司其職」,過去的 LLM 在做推論時會把整個模型的參數都用上,但並不是所有的參數都會對最後的結果有影響,因此 MoE 被設計成當有輸入進來時,會先經過一個 Gating Network(路由器)決定要使用哪些專家(Experts),然後只啓用這些專家的參數來進行推論,這樣就能夠減少計算量