Day11：什麼是 LLM

2025 iThome 鐵人賽

DAY 11

生成式 AI

一塊一塊拼湊的 AI 樂高世界之旅系列第 11 篇

17th鐵人賽

記憶只有五秒的海星

2025-09-25 17:47:16

157 瀏覽

分享至

大語言模型（Large Language Model 或者LLM）是一種人工智慧模型，它的主要功能是「理解文字並生成文字」。你可以把它想像成一個超大型的「文字自動補全器」，不只是能猜出下一個字，而是能回答問題、寫文章、翻譯語言、甚至寫程式。

LLM 的原理是透過「機器學習」裡的一種技術叫「深度學習」。模型會讀取大量的文字資料（像是書籍、文章、網頁），學習其中的語言規則與知識。它並不是逐字死背，而是透過一種叫做 Transformer 的架構來理解句子中每個詞和其他詞的關係。這樣一來，它就能產生聽起來自然、甚至有邏輯的內容。

在 LLM 出現之前，自然語言處理（NLP）模型主要用兩種方法來處理文字：

RNN（Recurrent Neural Network，循環神經網路），它會一個字一個字地讀取句子，所以前後順序很重要。

問題是：當句子很長時，前面的資訊會被「遺忘」或變得模糊。

CNN（Convolutional Neural Network，卷積神經網路），本來是用來處理影像的，也有人拿來處理文字。

那到了 2017 年，Google 發表了一篇劃時代的論文：《Attention Is All You Need》

在這篇論文裡，他們提出了一個全新的架構 —— Transformer。它拋棄了 RNN 的「逐字讀取」，改用 Attention 機制，可以一次「同時關注」句子裡不同位置的詞，這讓模型能夠有效理解「長距離的語意關係」，例如在一句話中，主詞和動詞可能隔很遠，Transformer 也能正確對應。

舉例來說：

你問「太陽為什麼會發光？」它會根據訓練時學到的知識回答科學解釋。
若你要求它「幫我寫一首小詩」，它會生成有韻律的詩句。

簡單來說，LLM 就像一個經過大量閱讀訓練的超強文字助手，可以用來做聊天機器人、搜尋引擎、寫作輔助、客服回應等等。

參考資料來源

Google 搜尋結果的 Gemini 摘要
https://aws.amazon.com/tw/what-is/transformers-in-artificial-intelligence/
https://zh.wikipedia.org/zh-tw/Transformer%E6%A8%A1%E5%9E%8B

Day 10：Flask 網頁後端入門

[Day 12] LLM Runtime 選擇？目標明確！！

系列文

一塊一塊拼湊的 AI 樂高世界之旅共 24 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19856 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

一塊一塊拼湊的 AI 樂高世界之旅系列 第 11 篇