Day3. Agent：AI Agent 是什麼？

2024 iThome 鐵人賽

DAY 3

生成式 AI

昨日 App，今日 Agent系列第 3 篇

16th鐵人賽

Tom & Jerry

2024-09-17 22:01:41

224 瀏覽

分享至

大眾逐漸開始更認識「models（模型）」到現在已經好一陣子了，從 2022 年開始，大家對於「模型（models）」的認識不斷加深。

那麼，我們所期待的 AI Agent 是什麼呢？

最早，嗯，其實也沒多早，自從 2022 年 Open AI 以 ChatGPT 打開了大家的眼簾後，很多人都開始討論單一模型的應用，而現在則逐漸轉向如何用 AI 建構更複合的系統。

原因很簡單，單一模型在實際應用中常會遇到一些限制，模型的表現會受限於訓練時餵給它的數據，你怎麼餵、他就怎麼長大，模型最後變怎樣與它的精緻度取決於這些所提供的資料，如果需要調整就需要投入相對應的資源來提供數據與資料，這使得如果使用單一模型很難跨越特定的任務範圍，必須處理明確的任務流，才比較能有發揮的空間。

不過隨著需求的多樣化，單一模型無法再滿足所有挑戰，很多人從今年開始，致力於探索如何組合多個模型，讓它們各自發揮專長並協同工作。這不僅能彌補單一模型的不足，還能應對更複雜的問題甚至是跨領域的需求。

為了要處理複雜的任務，AI Agent 必須具備多模型協作的能力、外部資源調用的能力以及長期學習和適應的能力。它們需要能夠理解使用者的需求，進行任務規劃，並執行多步驟的操作。這包括調用外部 API、訪問資料庫、與其他系統整合，甚至在執行過程中做出動態調整。AI Agent 還必須具有環境感知和上下文理解的能力，以便在不同情境下提供最適合的解決方案，這是跟單一模型很不一樣的地方。

這有點像是人們在工作場域時候的反應，AI Agent 會有更多將目標或問題拆解、任務流程化、決策、以及把過程轉化成經驗的能力，單一模型就好比一個職場菜鳥、而 AI Agent 像是一個富有經驗的特助。

職場菜鳥實習生：雖然能夠完成任務，但必須要一個口令一個動作，通常他們需要明確的指令才能行動，如果給他們模糊的目標，他們得要先猜一下、或者是「可以解釋得更清楚嗎？」，當指令足夠明確才能夠行動，不然做事就會做錯方向，他們也只能做認知內的事情，無法自主學習來處理更多挑戰，並且也因為產出容易不如預期，所以你必須要花很多時間來監督這位職場菜鳥實習生，他們很難獨立完成任務，你派了很多事情給他們，最後還是得靠你自己。

而有經驗的特助是怎麼在處理事情的呢？

有經驗的特助：他們因為很熟悉怎麼工作了，具備高度的自主性和判斷力，能夠在收到模糊的指令時，自己就能夠主動推測並理解你的意圖。他們會將模糊的目標進行拆解，辨識出關鍵問題，然後規劃出詳細的任務流程以達成目標。這些非常有經驗的特助不僅能夠自主決策，還會在執行過程中隨時調整策略以應變新的情境，在中間如果有遇到狀況或者問題，也能夠成為經驗來應變下一次遇到一樣的事情。

當面對複雜的任務時，他們會主動搜集相關資訊，調用各種資源，甚至協調不同部門的合作，以確保任務的順利完成。他們善於將每次的經驗轉化為知識，持續優化工作流程，提高效率和品質。此外，也因為能夠從中吸收經驗，他們還能預見潛在的問題，提前制定預防措施，減少風險。

如果，你能夠請到一位這樣的特助，就不需要花費大量時間去監督，反而能為你節省時間和精力（有時候請實習生反而讓你自己更忙……）。他們成為你的得力助手，能夠在關鍵時刻提供支持，協助做出明智的決策，也可能比較不會被資遣。

做個很簡單的圖例好了，這樣大家可以一起來感受一下單一模型跟 AI Agent 的不同，大家可以一起想像一下：

如果跟單一模型在互動，就好比今天要叫實習生幫忙訂餐廳：

你輸入一段指令（你叫實習生幫忙訂餐廳）
模型給出結果（實習生給你一些不怎麼樣的選項，或根據你的反應再找一些餐廳）
你再輸入 prompt 優化結果（你耐心的指導、給予建議、調整作法）

（…重複 2. 3. 步驟 n 次，希望這次數不要多到會惹人生氣）

終於啊，得到預期的結果（找到還不錯的餐廳了！）

你以爲這樣就皆大歡喜了嗎？人生可沒有這麼簡單！

我們當初的任務是：「叫實習生訂餐廳」

經過了一番努力之後終於讓他成功找到了還可以的餐廳

這時你發現實習生面有難色，跟你說：「老闆，我只是個實習生……」

「實習生的工作沒有打電話，我身為一個實習生也不會打電話……抱歉」

於是，最後你還是自己訂了。

當我們此時此刻在談論 AI Agent，我們所想像的是能夠自主感知理解需求，並且針對需求或目標來採取相對應的行動（將大任務拆解成小任務、將小任務分批執行），以完成特定目標的人工智慧。我們所期待的 AI Agent 不僅具備語言理解和生成能力，還能調用外部資源、執行複雜的任務流程，並持續學習與適應新的情境。

大概是這種感覺吧……

並且關鍵的差異是在，運用複合模型協作時，所輸出的結果會再進一步影響任務拆解的方式或細節，進而讓最後的結果更符合期待：

我認為 AI Agent 的魅力可不只這樣！除了以全新的方式解決問題外，我們也期望它能夠配合現有的流程，或是在各種既有的應用程式中運作，提供比現有流程設計更佳的成果。像是目前的智能客服、個人助理、數據分析等服務，都有機會透過 AI Agent 自主且有機地進化，讓使用者體驗到更高效率且更加個人化的服務。

進一步來說，AI Agent 能夠主動學習並適應使用者的需求，預測並解決潛在問題，這使得我們幾乎無法不發現可以優化的領域或產業。 不論是醫療、教育、金融，還是零售、製造、物流等行業，都存在著被 AI Agent 改變的可能性。這種轉變可預期地會帶來對商業模式和服務方式的重新定義。

並且，相較於實習生（實習生真可憐），AI Agent 能夠在短時間內多次經歷決策和行動，並配合人類的預期進行調整。這使得它們能夠快速迭代和學習。在開發 AI Agent 軟體的過程中，我們可以用更快的速度進行調整與最佳化。

就是在這種快來到的亂世之中，我們相信必然存在著無數的產品機會，產品設計師可以透過發掘使用者未被滿足的需求，結合 AI Agent 的能力，創造出全新的解決方案。 這些解決方案可能是更智能的健康管理系統、更貼心的教育輔助工具，或是更精準的財務規劃服務。AI Agent 的加入，將使得軟體產品能夠提供前所未有的價值和體驗。

AI Agent 的彈性和適應性也為產品設計帶來了新的可能。 設計師可以考慮如何讓 AI Agent 與使用者進行更自然的互動，如何在產品中融入 AI 的學習能力，甚至是如何設計 AI 與 AI 之間的協作機制。這些都是軟體、產品相關人員或產業的新的可能性（當然也是挑戰）。

因為我肯定，先開除實習生（？）。