iT邦幫忙

2024 iThome 鐵人賽

DAY 11
0
生成式 AI

從系統設計切入,探索 GenAI 在企業中的實踐系列 第 11

[Day11] 系統設計課程開始!ML pipeline 介紹

  • 分享至 

  • xImage
  •  

以下主要來自 LLM Twin: Building Your Production-Ready AI Replica 課程內容


經過了前 10 天奠定了開發 GenAI 的基礎概念,下一步就正式進入系統設計的部份。
先整理了這次挑選的課程架構,我很喜歡這套課程是因為它完整的擴展了我過去的開發作品,不論是從設計面、或者是從功能面,所以只是看完第一堂課就決定要認真研讀了,只是遲遲沒有開始,剛好趁這次機會也好好整理過這門課程的內容。

課程目標

先簡述這門課的目標,是開發 自己專屬的 LLM 分身。具體來說,就是將我們在 LinkedIn、Medium、GitHub 等社群平台上的貼文內容餵給 LLM,讓 LLM 了解並模仿我們的寫作風格,從而生成更符合個人風格的貼文。

3-pipeline 架構

https://ithelp.ithome.com.tw/upload/images/20240907/20151660VKxheZ1MVM.png
課程使用了 3-pipeline architecture 拆解架構,將機器學習組件分成特徵 (Features)、訓練 (Training) 和推理 (Inference) 三條 Pipeline,除了有明確的開發流程易於分工,清楚的架構和統一的儲存中心也有助於程式的建構和資源的控管。

具體來說,每條管道負責以下任務:

  1. 特徵管道-將資料轉換成特徵和標籤。
  2. 訓練管道-透過指定的特徵和權重訓練模型。
  3. 推論管道-選用特徵、模型來預測結果。

本課程的 pipeline 拆解

https://ithelp.ithome.com.tw/upload/images/20240907/20151660Am6hXiPWG2.jpg
第一堂課中,作者很仔細地說明了每一條 pipeline 的設計以及各個組件的選擇,增加了 data collection pipeline,完善了整個 MLOps 流程,接下來的寫作會依循官方提供的課程進度依序閱讀和梳理(以下是看圖猜出來的架構,會在閱讀中慢慢修正):

  1. ETL pipeline:資料經爬取與轉換後,存入 MongoDB 管理 L2
  2. CDC pipeline:監控 MongoDB 的數據變更,並推送至 RabbitMQ Queue 支援後續處理 L3
  3. Feature pipeline:對數據進行清洗與分割,並轉換成向量 L4
  4. VectorDB:將原始數據、meta data 和向量存入 Qdrant,供檢索與查詢 L5
  5. Training pipeline:從 DB 提取資料,並整理成可用於模型 fine-tune 的資料集 L6 L7
  6. Version control:使用 Comet ML 進行數據集的版本追蹤和管理
  7. Model register:將訓練好的模型存入 Comet ML 並進行效能評估與監控 L8
  8. Model quantisize:優化模型的執行速度與資源使用效率 L9 L10
  9. Query & answer:透過 REST API 與使用者進行互動問答
  10. Twin LLM:作為服務核心,生成回應

ref.


上一篇
[Day10] Langchain 的 GenAI 開發生態系-LCEL 設計架構
下一篇
[Day12] 微服務與容器化:易於擴展的 RAG 架構
系列文
從系統設計切入,探索 GenAI 在企業中的實踐30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言