iT邦幫忙

2025 iThome 鐵人賽

DAY 1
0
自我挑戰組

從讀書筆記到可落地 AI:LangChain、LangSmith 與 Agent 工具 30 講系列 第 1

Day 1|來做個會說話的圖片識別小幫手(1/5)

  • 分享至 

  • xImage
  •  

專案啟動:Agents相關研究30天計畫

歡迎來到這個為期 30 天的實戰計畫!目標是從零開始,打造一個功能強大的「多模態記憶型 Agent」。這個 Agent 不僅能看懂圖片,還能與你進行深入的對話,並將對話內容結構化地記憶下來。
首先第一步,會先參考以下優秀的教學影片與文件,快速做出一個最小可行性的 Demo。在有了基本框架後,我們再逐步拆解、加深,探討每個技術細節,最終完成一個功能完備的智慧助理。

目標:打造一個會識別圖片、能記憶的智慧助理

在這 30 天的旅程結束時,將會完成一個功能完整的 App,它具備以下核心能力:

  • 看圖說話: 使用者可以上傳圖片,Agent 能理解圖片內容。
  • 多輪追問: 能針對圖片內容進行多輪的深入對話。
  • 結構化輸出: 自動將圖片分析結果整理成結構化的 JSON 格式(包含物件、關係、場景等)。
  • 智慧記憶: 從對話與圖片中抽取關鍵資訊,形成「記憶卡」,供後續對話使用。
  • 語音互動: 支援語音輸入 (STT) 與語音回覆 (TTS)。

整體架構圖

https://ithelp.ithome.com.tw/upload/images/20250915/201785685Q5KRihSuV.png

30天實作路線圖 (大綱)

第一階段 (D2–D5): 基礎 Demo 建構 (Default)
  • Key points:LiveKit、Vision (視覺) 模組、基本agent。
第二階段 (D6–D7): 結構化輸出 (Formatted Output)
  • Key points : 常使用的structure output分享
第三階段 (D8–D13): 工具使用 (Tool Use)
  • Key points : 工具使用設計 - 何時該停?
第四階段 (D14–D18): 記憶落地 (Memory)
  • Key points : 設計並實作記憶模型(寫入、選取、更新)
第五階段 (D19–D22): 協作與控制流 (Orchestration)
  • Key points : 建立 Supervisor 節點、agents 協作方式
第六階段 (D23–D26): Context 工程與推理 (Context Engineering & Reasoning)
  • Key points : Context 的寫入(langGraph state)、memory content、tool result
第七階段 (D27–D30): 落地與驗證 (Deployment & Showcase)
  • Key points : 3–4 案例分析。

明日預告

將正式進入 Default 製作 (2/5):依照參考影片,拉起一個端到端的 Demo,並導入 LiveKit、STT 與 TTS。


下一篇
Day 2|使用 LiveKit 開始打造(2/5)
系列文
從讀書筆記到可落地 AI:LangChain、LangSmith 與 Agent 工具 30 講4
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言