iT邦幫忙

2025 iThome 鐵人賽

DAY 26
0
IT 管理

30天 Copilot 企業實戰:助你・助理・代理,從工具到工作流的升級系列 第 26

Day 26 - 從 Copilot Studio Full Experience 淺談大型語言模型戰國時代與未來的應用場景

  • 分享至 

  • xImage
  •  

前幾天我們探討了 Copilot Studio Full Experience 的核心功能,並延伸出多種實際應用情境與潛在解決方案
,然後今天會將焦點放在更深一層的主題為建立角色的「大腦」。

這不僅是為了打造更廣、更細緻的解決方案思維,也是為了培養一種面對高速變化世界所必備的關鍵思維習慣。

LLM 多元競爭的時代

如果說過去幾年是大型語言模型 (LLM) 技術的萌芽期,那麼 2025 年無疑標誌著我們進入了一個 LLM 技術多元化、供應商充分競爭的成熟階段。

在這個時期市場上出現了眾多優秀的選擇,例如 OpenAI 的 GPT 系列持續創新,Anthropic 的 Claude 家族提供了強大的替代方案,Google 的 Gemini 整合了龐大的生態系,Grok 急起直追像是火箭般發展的新生態系,同時還有眾多開源模型在特定領域表現出色。

https://ithelp.ithome.com.tw/upload/images/20251005/20141298a6vMb5b0U8.jpg
就像是這張圖一樣,每隔幾個月新的大型語言模型一推出所以跟 AI 相關的服務很快就可以使用這些模型

對企業而言意味著更多的選擇和更大的彈性,在此背景下 Microsoft Copilot Studio 的定位也日益清晰,它不僅只是一個開發工具,更是一個能夠整合並調度多種 AI 服務的核心平台,接著來探討 Copilot Studio 在這個多模型共存的未來中所扮演的角色與潛在應用。

Copilot Studio 平台演進:從 GPT-4o 到 GPT-5 與 Claude 雙模型策略的戰略佈局

要有效利用當前的 AI 能力,首先需要了解關鍵模型的具體進展。

https://ithelp.ithome.com.tw/upload/images/20251005/20141298m49xztbayY.png

在快速迭代的人工智慧領域,Microsoft Copilot Studio 始終走在技術整合的前沿,其核心大型語言模型(LLM)的演進與擴展,直接定義了平台的應用深度與廣度。

從最初以 GPT-4o 為基礎,到8月的時候導入 GPT-5 的創新架構,接著很快的在9月宣布整合 Anthropic Claude 系列模型,Copilot Studio 已從單一模型依賴轉變為一個靈活、高效的雙供應商(Dual-Vendor)生態系統,為企業提供前所未有的選擇性與任務適應性。

第一階段:OpenAI GPT 系列的深化演進

Copilot Studio 的發展根基於 OpenAI GPT 系列模型的持續突破,每一代模型的更新都為平台帶來了質的飛躍。

基礎模型 - GPT-4o

Copilot Studio 曾經的預設模型,GPT-4o 以其原生的多模態處理能力奠定了平台的核心功能。

然而其在處理大規模資料時受限的上下文視窗,使其功能逐漸被後續更強大的版本所超越,成為技術演進光譜中的一個重要起點。

效能躍升 - GPT-4.1

此模型的發布標誌著一次全面的效能升級。它在三個關鍵領域實現了顯著提升:

編碼能力: 在 SWE-bench 測試中準確率提升了 21.4%,大幅增強了程式碼生成與除錯的可靠性。
指令遵循精確度: 更精準理解並執行複雜指令,減少了誤解與偏差。
長文本處理: 上下文視窗擴展至 100 萬 tokens,使其能夠處理極長的文檔與複雜對話,為深度分析任務鋪平了道路。結合其優越的成本效益,GPT-4.1 迅速成為執行多數高要求任務的可靠首選。

架構創新 - GPT-5 (2025年8月)

GPT-5 的推出帶來了革命性的架構突破 : 即時路由 (Real-time Router) 機制。此機制能根據任務的複雜度,動態選擇最合適的處理模式,實現了速度、成本與準確性的最佳平衡。

  • GPT-5 Auto 模式: 在此預設模式下,系統會自動分流請求。對於簡單查詢,啟用「快速回應模式」以極大化效率並降低成本,面對複雜問題時則無縫切換至「推理模式」,進行嚴謹的多步驟邏輯分析。
  • GPT-5 Reasoning 模式: 開發者可強制啟用此深度推理模型,專門應對需要極高準確性的專業級任務,例如科學研究、財務建模或關鍵系統的程式碼審查。數據顯示,此模式能將重大錯誤減少 22%,在專家級問題上的準確度提升高達 293%,並在 SWE-bench 上取得了 74.9% 的頂尖成績。

第二階段:戰略擴展 - 整合 Anthropic Claude 系列

2025年9月,Microsoft 宣布將 Anthropic Claude 模型整合至 Copilot Studio,此舉標誌著平台從單一供應商依賴走向雙供應商並行的戰略轉型。

這不僅為開發者提供了更多元的選擇,更透過引入具備獨特優勢的 Claude 模型,補足了特定高風險、長文本分析場景的需求。

Claude 模型系列的核心定位

Claude Opus 4.1 - 深度研究與複雜分析引擎:

  • 核心優勢: 擁有超過 20 萬 tokens 上下文處理能力、精準的深度推理能力以及業界聞名的較低幻覺率(Hallucination Rate)。
  • 適用場景: 完美勝任法律文件分析、醫療研究報告審閱、財務盡職調查以及複雜程式碼庫的整體審查。
  • 企業價值: 在高風險決策場景中,Opus 4.1 提供了一個需要深度思考與多步驟推理的強大工具,確保了分析結果的可靠性與準確性。

Claude Sonnet 4.5 - 平衡效能與成本的多用途模型:

  • 核心優勢: 在保持優秀準確性的前提下,提供了更快的反應速度與更高的成本效益。
  • 適用場景: 理想適用於日常文件撰寫、客戶服務對話、行銷內容生成及一般程式碼開發等大規模部署的工作負載。
  • 企業價值: 為企業提供了一個穩定、高效且經濟的選擇,能夠廣泛應用於日常營運中,全面提升生產力。

Copilot Studio 的演進路徑清晰地展示了一個從「單一強大模型」邁向「多元化、專業化模型組合」的戰略思維。透過 GPT-5 的智慧路由與 Anthropic Claude 系列的專業分工,Microsoft 成功地為企業打造了一個高度靈活的智慧平台。

第一手開箱 Copilot Studio 的 Claude 系列大型語言模型

Copilot Studio 整合 Claude 模型需要經過「雙層管理啟用機制」,首先由全域管理員在 Microsoft 365 Admin Center 啟用 Anthropic 供應商,接著在 Power Platform Admin Center 進行環境層級的控制,最後在 Copilot Studio 的 Agent 設定中選擇 Claude Sonnet 4.5 或 Claude Opus 4.1 作為主要模型。

小提醒 : 當前連接到 Claude 的模型時將傳送至 Anthropic 進行處理,所以如果想要體驗 Claude 模型可以使用微軟的沙箱帳號。

在 Microsoft 365 admin center 開啟的步驟如下
https://ithelp.ithome.com.tw/upload/images/20251005/20141298JVUSHO2IPj.png

https://ithelp.ithome.com.tw/upload/images/20251005/20141298vokddp3sB6.png

https://ithelp.ithome.com.tw/upload/images/20251005/201412987LDGCRZRhc.png

接下來會以統一的指令與問題,快速比較不同模型的回答,並由 Gemini pro 2.5 擔任第三方評審,分析它們在敘述清晰度、邏輯深度與表達風格上的差異,找出各自的亮點與特點。

備註:由於這是基於單一 Prompt 的結果,因此僅是初步觀察,實際的模型表現仍需依照不同場景與多輪對話來進行更細部的比較。
同時,本次評比不會對模型的不足部分作出直接評論,而是著重於各自的優勢與表現特點。

測試的問題集

問題:
一個團隊正在設計一個能回答公司內部常見問答(FAQ)的智慧助理,並決定完全透過 Copilot Studio 來建立。

在設計過程中,他們希望這個助理不只會回覆文字,還能根據使用者的提問主題,自動選擇最合適的回答來源與回應策略。

假設團隊內的 Copilot Studio 具備以下設定:
已建立多個 Topics(主題流程),例如:「差勤規定」、「報銷流程」、「設備報修」。
已匯入兩種 Knowledge Sources:FAQ 文件與 SharePoint 頁面。
啟用了 Generative Answers(生成式回答) 功能。

請回答以下問題:
Copilot Studio 如何在使用者提問時判斷應該啟用哪一個 Topic 或 Knowledge 來源?
若希望助理在回答時能自動補充未被 FAQ 涵蓋的內容,應如何設定 Generative Answers 的行為與安全範圍?

在測試階段,應如何利用 Activity Map 或 Trace 功能 來觀察助理的決策過程?

若之後要將此助理發佈給特定部門使用,請說明可利用哪些方式進行權限與資料來源的治理設定。

選手一 : GPT-4o

https://ithelp.ithome.com.tw/upload/images/20251006/20141298C11EuHw6Jq.png

GPT-4o 版本的突出內容

相較於其他更複雜的版本,GPT-4o 的答案最為簡潔和直接。它沒有額外的框架或摘要,而是直接針對四個問題提供條列式答案,其突出之處在於:

  • 易讀性與速度:結構最簡單,使用者可以最快地找到對應問題的直接答案,沒有過多技術術語的鋪陳。
  • 基礎性:內容涵蓋了最核心的基礎知識點,適合初學者或只需要快速概覽的使用者。

選手二 : GPT-4.1

https://ithelp.ithome.com.tw/upload/images/20251006/20141298nUH9vVWepT.png

GPT-4.1 版本的突出內容

此版本在 GPT-4o 的基礎上增加了結構性和實用性,其突出之處在於:

  • 結構化摘要:開頭的「摘要說明」和結尾的「延伸建議」提供了良好的閱讀框架,幫助使用者快速掌握核心並獲得額外提示。
  • 視覺化標記:使用 🔗 符號標示來源,雖然簡單,但在視覺上區分了內容和參考資料,提升了可讀性。
  • 平衡性:在簡潔與詳細之間取得了不錯的平衡,提供了比 4o 更豐富的資訊(如「主回覆」 vs. 「補充回覆」模式),但又不像後續版本那樣深入技術細節。

選手三 : GPT-5 Auto

https://ithelp.ithome.com.tw/upload/images/20251006/20141298cPFOIAqHGE.png

GPT-5 Auto 版本的突出內容

此版本展現了顯著的技術深度提升,是第一個明確引入核心概念的版本:

  • 引入核心技術概念:率先點出 Orchestration Mode(協同模式) 是決定 Topic 或 Knowledge 來源的關鍵,這是理解 Copilot Studio 決策機制的核心,也是前兩個版本完全遺漏的重點。
  • 互動式提議:結尾提出「是否需要我幫你畫一張『決策流程圖』」,這是一種創新的、主動的互動方式,試圖將複雜的資訊視覺化。
  • 精準的術語:使用了如 Generative Orchestration、Trigger Phrase、DLP (資料外洩防護) 等精確的官方術語,展現了更高的專業性。

選手四 : GPT-5 Reasoning

https://ithelp.ithome.com.tw/upload/images/20251006/20141298nAAJsUO1TK.png

GPT-5 Reasoning 版本的突出內容

此版本堪稱一份權威的技術白皮書,其深度和嚴謹性超越了所有其他版本:

  • 極致的深度與細節:對「Generative Orchestration」的解釋最為詳盡,甚至包含了已知限制(如 Multiple Topics Matched 的行為)和對話脈絡的限制,這是其他版本沒有的。
  • 最佳實務導向:不僅回答「如何做」,更強調「如何做得更好」,例如提供了「描述撰寫最佳實務」,並建議將 Topic 回覆以「輸出變數」回傳,展現了資深架構師的視角。
  • 前瞻性與風險提示:獨家加入了「版本與更新提醒」,提醒使用者功能可能隨時間演進,這在快速迭代的雲端服務中至關重要。
  • 精確的引用:來源引用不僅是連結,而是直接鏈接到 Microsoft Learn 文件的具體章節,展現了極高的資訊準確性。

選手五 : Claude Sonnet 4.5

https://ithelp.ithome.com.tw/upload/images/20251006/20141298qwUJgnt2Qb.png

Claude Sonnet 答案的版本

此版本在視覺化呈現和實戰部署方面最為突出,將答案組織成一份易於遵循的指南:

  • 高度視覺化的排版:大量使用表情符號、表格(vs. 經典編排對比)、區塊和多層次列表,使複雜資訊的易讀性達到最高。
  • 實戰部署框架:獨家提出了環境隔離策略(開發、測試、生產) 和角色定義(RBAC),這完全是企業導入時的標準作業流程(SOP)。
  • 可操作的檢查清單:提供了「完整部署檢查清單」,將整個流程分為四個階段,並給出建議時程,這是最具實踐指導意義的內容。
  • 潛在的資訊風險:值得注意的是,其引用的部分來源包含未來日期(如「2025 年 4 月更新」),這可能是資訊的幻覺或對未來版本的預測,需要謹慎對待。

選手六 : Claude Opus 4.1

https://ithelp.ithome.com.tw/upload/images/20251006/20141298kQtg9ycuIG.png

Claude Opus 4.1 答案的版本

此版本是深度與實用性的強力結合,可以視為 GPT-5 Reasoning 的有力競爭者,並在某些方面更具操作性:

  • 具體的正反範例:在解釋「Topic 描述優化」時,提供了明確的「✅ 好的描述」與「❌ 避免模糊」的範例,讓使用者能立即應用。
  • 結構化的圖示:使用樹狀結構來呈現「環境配置建議」,在視覺上清晰地展示了環境之間的層級關係。
  • 實用的清單:同樣提供了「發佈控制檢查清單」,內容非常具體,涵蓋了從環境確認到 DLP 合規性的多個關鍵節點。
  • 全面的治理視角:在權限治理部分,整合了 Teams 部署、Power Platform 安全角色和 DLP 政策,提供了一個多維度的治理方案。

總結

今天的分享我們快速了解了新模型的核心特質,並透過相同的指令、知識與提問進行了多模型比較。但最終的重點仍在於回歸到起點,就是先明確問題再對應目標,然後選擇最能發揮效益的模型,並以此為基礎快速構建出第一個 Agent 原型。

隨著大型語言模型不斷迭代,每一次模型的升級,幾乎都像是在重新認識一位「虛擬新同事」。了解它的強項、行為邏輯,並學會將這些能力與自身的建置技巧和創新思維結合,將會是未來最關鍵的 AI 核心競爭力。


上一篇
Day 25 - 讓資訊能看和能動:Copilot Studio 中的 MCP 插件,讓你的 Agent 擁有更寬廣與無限可能的視野
系列文
30天 Copilot 企業實戰:助你・助理・代理,從工具到工作流的升級26
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言