Day 1 前言

2025 iThome 鐵人賽

DAY 1

生成式 AI

17th鐵人賽

236 瀏覽

會議後的煩惱

你我可能曾有過這樣的經歷：一場長達兩小時的會議終於結束，大家如釋重負地離開，而你，卻是另一個戰鬥的開始。

你必須留下來，面對著冰冷的錄音檔，像考古學家一樣，在模糊的音訊中，一段段地回放、暫停，試著整理出誰說了什麼?有哪些重要決議?後續的待辦事項又有哪些?更讓人頭痛的是，還要整理成文字，再通知不同部門的其他人，最後複製貼上到 Notion 或其他協作工具，確保事情有人追蹤。

這個過程不僅耗時，而且極度消磨心力。

市面上雖然已有語音轉文字的服務，也有許多自動化工作流平台，但它們就像是分散的零件只能處理單一環節，缺乏一個能理解人類指令的「大腦」來智慧地協調所有工具。

我希望能打造一個能理解自然語言指令、自動判斷處理流程、並具備學習能力的 AI Agent。使用者只需要在一個簡單的介面上傳錄音檔，然後像跟助理說話一樣下指令

「幫我整理這次會議的待辦事項，用 gmail 通知 John 和 Mary，並在 Notion 建立一個包含摘要的頁面。」

系統就能自動完成所有事情，實現從會議（Meeting）到行動（Action）。

智慧中樞（The Brain）-- MCP 協調核心
我選擇 MCP (Model Context Protocol) 作為核心協調架構。它是由 Anthropic 推出的開放標準，能讓不同的 AI 模型和工具之間進行標準化溝通，是我們 Agent 的大腦。
靈敏的耳朵（The Ears）-- 本地 Whisper 服務
我會利用 OpenAI 開源的 Whisper 模型在本地端進行語音轉錄。這麼做的好處是能確保會議內容的隱私，不需上傳到雲端，同時也節省了 API 費用。
萬能的手腳（The Hands & Feet）-- n8n on Docker
我會使用 n8n 這個強大的開源工作流自動化平台，並將它部署在 Docker 容器中。這讓我的 Agent 擁有了手腳，能靈活的串接各種服務，像是 AI 摘要、任務提取、LINE或Gmail通知、Notion 建立等。
親切的臉龐（The Face）-- Gradio 互動介面
我會使用 Gradio 打造一個一頁式 Web 介面，讓使用者可以上傳錄音、輸入指令，並即時看到處理結果。