iT邦幫忙

2025 iThome 鐵人賽

DAY 14
0
AI & Data

為你自己學 n8n系列 第 14

[為你自己學 n8n] 第 14 天,AI Agent 元年!n8n 參戰!

  • 分享至 

  • xImage
  •  

Yes

影片連結:https://www.youtube.com/watch?v=Y4PKTDh7P2w
YouTube 頻道:https://www.youtube.com/c/kaochenlong

接下來這兩集,我想跟大家介紹一個今年很熱門的關鍵字:AI Agent

記得皮衣大叔黃仁勳說今年 2025 年是 AI Agent 元年。很棒!AI Agent 元年!又是個元年,我們每年都有新的元年,但既然都講是 AI Agent 元年了,大家總得知道什麼是 AI Agent 吧

什麼是 AI Agent?

對有些人來說,AI Agent 可能就等於 ChatGPT,事實上這有點距離。

AI Agent 這個詞,如果翻成中文,我們會翻譯成「AI 代理人」,在中國則是翻譯成「AI 智能體」。但我們先看 Agent 這個詞,Agent 是指代理的意思。所以 Agent 是指說本來這件事應該是要你做的,然後現在有人幫你做。

就像請假的時候可能有職務代理人,有些本該要你做的工作,可能因為有事不能做,或者不想做,找個人幫你做。所以 AI Agent 是指說那個 AI 他可以幫你做你本來應該要做的事情。

AI Assistant vs AI Agent

這邊我用另一個名詞 AI Assistant(AI 助理)一起比較一下,我們先看看 AI 助理是什麼概念。舉個例子:

我現在在公司加班,肚子餓了,我跟我的助理說:「我肚子餓了,能幫我買點東西吃嗎」

助理問「老闆,你想要吃什麼東西?」

我說:「隨便來點鹹的好了。」

然後這時候助理又繼續問:「那你要中式還是西式的?」

我說:「都可以吧,中式的好了。」

助理繼續問:「你想要吃排骨飯、雞腿飯還是烤魚飯?」

我:「我要排骨飯。」

助理繼續再追問:「那排骨是要炸的還是滷的呢?」

有沒有發現問題在哪裡?這個一來一往其實有點囉嗦,要這樣我乾脆我自己去買就好了。問我那麼多問題,我一點都沒有覺得我省到多少時間。

這其實並不是 AI Agent,這個只是一個助理。

AI Agent 的真正威力

所謂 AI Agent 的概念是指說,例如你今天跟 Agent 講說:「我肚子餓了。」然後你這個 AI Agent 非常厲害,它可以根據現在的時間跟所在地,判斷說「我認為你現在這個時間,你應該想吃點鹹的。」

或者是說直接翻你 Uber Eats 點餐紀錄,看看最近你喜歡吃些什麼東西,然後判斷這個時間那間餐廳有沒有營業,如果有開的話就幫你點,不然就幫你點些別的。

然後這時候他想說你加班,你應該會想要喝點甜的吧,補充點熱量,所以又幫你再點一杯手搖飲。

所以當你的訊息告訴 AI Agent 說「我肚子餓了」,然後這個 AI Agent 經過整個流程之後跟你說:「我已經幫你點了一份三商巧福牛肉麵,然後還幫你點了一杯五十嵐的珍珠奶茶,30 分鐘之後到。」

這個才叫 Agent 的概念!

我想像中的 Agent 比較像是鋼鐵人電影裡的賈維斯(JARVIS),你可以跟它講話,它也可以跟你對話還可以幫你做決策。

現在再回頭想想,你認為平常在用的 ChatGPT 算不算是 AI Agent 呢?

比較表

我把 AI 助理跟 AI 代理人做了一個簡單的比較:

特性 AI 助理 AI 代理人
主動性 依賴用戶指令 能根據目標主動行動
任務複雜度 單一任務為主 可以完成多步驟的任務
適應能力 主要針對靜態問題解答 能處理動態、上下文相關的需求
自主決策 有,能依據情境和目標做判斷

在 n8n 中建立 AI Agent

講這麼多,到底這個跟 n8n 有什麼關係?來我們看一下,在 n8n 裡面,就剛好有一個 AI Agent 的節點在裡面,這也是它之所以能在今年大紅大紫的原因之一。

AI Agent 的基本結構

首先,我們先開一個新的工作流,然後在工具箱裡搜尋「AI agent」,你會看到有個機器人圖示,就是它。

AI Agent 除了一個身體之外,還有一個我稱它叫做「感知裝置」的設計,它可能會是聊天室、或者可能是 LINE 的訊息、可能是檔案,各式各樣的東西都可以是這個輸入裝置,這就是一個 AI Agent 的最基本的樣子。

執行一下,因為這個框框本身會是個輸入框,所以我們可以跟它聊天在這裡。我們打「你好」,然後按下 Enter,然後就發現無法執行。原因是它說還需要一個 Chat Model,需要一個可以聊天的模型。

挑選 Chat Model

再來我們要幫它接上一個 Chat Model 讓它能回應我們的訊息,這個 Chat Model 就是我們大家這兩年常聽到的大語言模型,LLM。

目前大語言模型有很多選擇,Anthropic、Azure、Google、OpenAI 這些都是大語言模型的供應商。該選哪一間呢?每一間其實他們各有些優缺點,以目前來說,如果以學習目的的話,我建議大家可以從 Google Gemini Chat Model 開始,原因非常簡單,就是因為它目前不用錢!

取得 Google Gemini API Key

要用 Google Gemini Chat Model,第一件事就是要有一個 API Key。要取得 API Key 很簡單,打開瀏覽器:

https://ai.dev/

網址非常短、非常酷,在網站的左下角選單有個「Get API Key」連結,順著連結做應該一下子就能取得 API Key 了,跟之前串接 Google OAuth 或是 Line OA 的 token 申請流程相比,簡單太多了。

選擇模型

選擇 Google Gemini 之後,再來得再選模型,種類有很多種,什麼 2.0、1.5、flash 還是 pro,很多可以選。

這裡我們先選擇「Gemini 2.5 Flash」,這個 Flash 的意思是說它是一個算是思考速度比較快,雖然說它可能沒有到非常聰明,但已經足夠好用了。相對的,如果是 Pro 系列,表示它會思考的比較久一點,但反應速度相對比較慢一點。

做到這裡,應該已經可以開始跟他聊天了。

AI Agent 的局限性?

AI Agent 很厲害,但還是有一些問題...

舉個例子,例如我問他「今天是幾月幾號?」,它會回答「他是 AI 模型,他說沒有辦法回答這個問題,然後叫你自己去看手錶」

如果我可以看手錶幹嘛問你?

這個算老實的,有些模型會告訴你說「今天是 5 月 8 號」根本就隨便亂講一通,為什麼會這樣?這就是我們在下一集要跟大家介紹的。

AI Agent 很棒、很酷、很厲害,But 它有一些缺陷。人生最厲害的就是這個 But,這也是目前各家大語言模型的天生的設定。沒關係,我們下一集就來介紹這幾個 But,以及該怎麼解決這些 But。


上一篇
[為你自己學 n8n] 第 13 天,LINE 機器人誕生記!
系列文
為你自己學 n8n14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言