iT邦幫忙

2025 iThome 鐵人賽

DAY 1
2

會議後的煩惱

你我可能曾有過這樣的經歷:一場長達兩小時的會議終於結束,大家如釋重負地離開,而你,卻是另一個戰鬥的開始。

你必須留下來,面對著冰冷的錄音檔,像考古學家一樣,在模糊的音訊中,一段段地回放、暫停,試著整理出誰說了什麼?有哪些重要決議?後續的待辦事項又有哪些?更讓人頭痛的是,還要整理成文字,再通知不同部門的其他人,最後複製貼上到 Notion 或其他協作工具,確保事情有人追蹤。

這個過程不僅耗時,而且極度消磨心力。

為什麼想做會議處理的 AI Agent

市面上雖然已有語音轉文字的服務,也有許多自動化工作流平台,但它們就像是分散的零件只能處理單一環節,缺乏一個能理解人類指令的「大腦」來智慧地協調所有工具。

我希望能打造一個能理解自然語言指令、自動判斷處理流程、並具備學習能力的 AI Agent。使用者只需要在一個簡單的介面上傳錄音檔,然後像跟助理說話一樣下指令

「幫我整理這次會議的待辦事項,用 gmail 通知 John 和 Mary,並在 Notion 建立一個包含摘要的頁面。」

系統就能自動完成所有事情,實現從會議(Meeting)到行動(Action)。

我心中的 AI Agent 藍圖

  • 智慧中樞(The Brain)-- MCP 協調核心
    我選擇 MCP (Model Context Protocol) 作為核心協調架構。它是由 Anthropic 推出的開放標準,能讓不同的 AI 模型和工具之間進行標準化溝通,是我們 Agent 的大腦。

  • 靈敏的耳朵(The Ears)-- 本地 Whisper 服務
    我會利用 OpenAI 開源的 Whisper 模型在本地端進行語音轉錄。這麼做的好處是能確保會議內容的隱私,不需上傳到雲端,同時也節省了 API 費用。

  • 萬能的手腳(The Hands & Feet)-- n8n on Docker
    我會使用 n8n 這個強大的開源工作流自動化平台,並將它部署在 Docker 容器中。這讓我的 Agent 擁有了手腳,能靈活的串接各種服務,像是 AI 摘要、任務提取、LINE或Gmail通知、Notion 建立等。

  • 親切的臉龐(The Face)-- Gradio 互動介面
    我會使用 Gradio 打造一個一頁式 Web 介面,讓使用者可以上傳錄音、輸入指令,並即時看到處理結果。

我將這個 AI Agent 命名為 M2A Agent(Meeting to Action Agent),意思就是從會議(Meeting)到行動(Action)的智慧助理。

未來30天的旅程

在接下來的 30 天裡,我將從零開始構建這個 MCP Agent 系統。我會記錄每一天的開發過程、遇到的挑戰、解決的方法,以及學到的知識。希望這個系列不只是我個人的學習記錄,也能成為想要進入 AI Agent 開發領域夥伴們的實用指南。


系列文
打造基於 MCP 協議與 n8n 工作流的會議處理 Agent1
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言