你我可能曾有過這樣的經歷:一場長達兩小時的會議終於結束,大家如釋重負地離開,而你,卻是另一個戰鬥的開始。
你必須留下來,面對著冰冷的錄音檔,像考古學家一樣,在模糊的音訊中,一段段地回放、暫停,試著整理出誰說了什麼?有哪些重要決議?後續的待辦事項又有哪些?更讓人頭痛的是,還要整理成文字,再通知不同部門的其他人,最後複製貼上到 Notion 或其他協作工具,確保事情有人追蹤。
這個過程不僅耗時,而且極度消磨心力。
市面上雖然已有語音轉文字的服務,也有許多自動化工作流平台,但它們就像是分散的零件只能處理單一環節,缺乏一個能理解人類指令的「大腦」來智慧地協調所有工具。
我希望能打造一個能理解自然語言指令、自動判斷處理流程、並具備學習能力的 AI Agent。使用者只需要在一個簡單的介面上傳錄音檔,然後像跟助理說話一樣下指令
「幫我整理這次會議的待辦事項,用 gmail 通知 John 和 Mary,並在 Notion 建立一個包含摘要的頁面。」
系統就能自動完成所有事情,實現從會議(Meeting)到行動(Action)。
智慧中樞(The Brain)-- MCP 協調核心
我選擇 MCP (Model Context Protocol)
作為核心協調架構。它是由 Anthropic 推出的開放標準,能讓不同的 AI 模型和工具之間進行標準化溝通,是我們 Agent 的大腦。
靈敏的耳朵(The Ears)-- 本地 Whisper 服務
我會利用 OpenAI 開源的 Whisper
模型在本地端進行語音轉錄。這麼做的好處是能確保會議內容的隱私,不需上傳到雲端,同時也節省了 API 費用。
萬能的手腳(The Hands & Feet)-- n8n on Docker
我會使用 n8n
這個強大的開源工作流自動化平台,並將它部署在 Docker
容器中。這讓我的 Agent 擁有了手腳,能靈活的串接各種服務,像是 AI 摘要、任務提取、LINE或Gmail通知、Notion 建立等。
親切的臉龐(The Face)-- Gradio 互動介面
我會使用 Gradio
打造一個一頁式 Web 介面,讓使用者可以上傳錄音、輸入指令,並即時看到處理結果。
我將這個 AI Agent 命名為 M2A Agent(Meeting to Action Agent),意思就是從會議(Meeting)到行動(Action)的智慧助理。
在接下來的 30 天裡,我將從零開始構建這個 MCP Agent 系統。我會記錄每一天的開發過程、遇到的挑戰、解決的方法,以及學到的知識。希望這個系列不只是我個人的學習記錄,也能成為想要進入 AI Agent 開發領域夥伴們的實用指南。