iT邦幫忙

2023 iThome 鐵人賽

DAY 27
0

前天提到了優化應該不要想說把你的所有 Unstructured Data 都想要用同一個方式來處理,舉例來說把影像辨識, OCR, Sentence Complete, Neural Machine Translate 等等所有的題目都想說用同一套方式去管理,而是針對不同類型的去發展,而我認為LLMOPs 就是這樣發展出來的,多了以下幾個項目

  • Prompt Engineering Management:語言模型最一開始需要接觸的就屬於 Prompt 了,除了常見場景的一些直接描述行的 Prompt 甚至也發展出了 Chain of Though 這類 In Context Learning 的技巧,只把這些 Prompt 透過 Git 來管理已經不敷使用,因此開始衍生出這些工具
  • Retrieval Database Management: RAG 透過 Vector Database 來檢索一些資訊幫助 LLM 模型得到更多相關資料已經是一個在 Fine Tuning 以前很標準的解決方式,這部分如何寫入管理也成了模型的一部分,像是 LlamaIndex 就嘗試做一套這樣的管理系共
  • Historical Search Database: 現在語言模型的應用都以 Chat 為主的 Fine tuned model,而不是單純的 Text Complete Task,所以過去的聊天記錄管理也成為模型在 Inference 部分很重要的元件
  • Agent Serving: 這就是在想 Chat Agent 本身,我認為更精確的事 Inference Server 本身,有工具像是 LangChain 就把所有工具整合,並嘗試把 Agent Serving 的組合變得更加自動化
  • Fine Tuning Database Normalizer: 2024 絕對是 Fine Tune 元年,但是以目前的統計有八成的 Fine Tune 都會以失敗收場,而失敗都不是因為參數量不夠,而是訓練的資料沒有合宜的整理,目前這類的自動化工具還比較少,但我相信後續這會是一個大重點

總結來說,在 Binary Classification 的部分我們為了自動化流水線引入的各種工具,在 Unstructured Data (今天指的是 LLM Chat Model),都可以用,但會需要發展出更符合這個使用場己的工具,所以提出了幾點特別在 LLM 場景中會需要的工具,透過這些工具去實現更自動化的管理, 測試和監測,來減少人工的成本甚至次錯誤機會,我相信這就是 MLOps 的價值所在


上一篇
Day 26 Inference Server
下一篇
Day 28 The Whole Picture
系列文
踏上 MLOps 之路:從 Applied Data Scientist 到 MLOps 的轉變與建構30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言