Day1 - 前言 & 為什麼基礎建設很重要? - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 1

生成式 AI

Local LLM infra & Inference 一部曲系列第 1 篇

Day1 - 前言 & 為什麼基礎建設很重要?

16th鐵人賽 llm infrastructure inference

母湯小精靈

團隊為了AI而AI

2024-09-02 15:47:23

2150 瀏覽

分享至

前言 - 為什麼基礎建設很重要?

嗨嗨，大家好，我是精靈。

身為畢業兩年左右的菜鳥，因為意外不小心跳入了infra火坑，爬上來之後又意外吃了LLM這塊餅。接觸了一些研究單位、新創、傳產，意外發現大家都對infra沒有什麼認識，甚至很多人都不知道什麼是infra工程師。

不過大家都想一起快樂的畫大餅，抱有一個想要做一個local LLM服務的夢想。雖然了解不深，只知道可以call OpenAI的API、好像有GPU顯卡就可以下載模型跑了，中間怎麼做怎麼設定就不知道了。

這邊遇過到一個情境是：

有公司不信任大公司的API或資料儲存服務，怕文件機密外流。沒太多預算買設備卻想要local服務，想自己架設，不想要準確度差，又想要速度快，多人使用都沒問題。

這也是寫這個主題的原因，讓我們一起來研究這個local LLM服務的夢想！

在這個狀況下，基礎建設是最重要的，好的基礎建設才能讓後面那些工程師和user快樂的玩AI。

(圖源: 網路)

段落主題

目前規劃的30天主題如下，推理相關技術的分類參考了幾篇論文。

LLM 基本背景知識
- LLM 想做服務的迷思
- LLM 吃什麼資源
- LLM 現在推理的問題點在哪裡
- 硬體設備、其他背後所需成本
- 台灣的資料中心、繁體中文 local LLM 模型
推理加速相關技術
- 模型/參數層面最佳化 (Model-level / Parameter-Level Optimization)
  - 模型壓縮技術 (Model Compression)
- 系統/硬體層面最佳化 (System-level / Hardware-Level Optimization)
  - 針對計算資源的分散式系統 (Distributed Systems)
  - 平行運算 (Parallel Serving)
  - 不同的 batching 方法
  - 減少 KV 快取
  - 記憶體管理 (Memory Management)
  - Offloading Inference
- 演算法層面最佳化 (Algorithm-level Optimization)
  - 預測推理 (Speculative Decoding)
- 資料面最佳化 (Data-level Optimization)
  - Prompt 壓縮技術 (Prompt Compression)
Local LLM 推理加速框架
- 推理加速框架之間的比較 (個人電腦/伺服器中開API)
- 經典加速框架 vLLM
資料中心與分散式系統
- 資料中心、VM、針對服務的分散式系統
- HA 架構、監控
總結
- LLMOps & 未來展望

本系列文章將針對小公司經費、設備不足去探討該怎麼做可以節省成本；也針對大公司的infra架構去介紹資料中心的設計，有什麼方法最佳化運用所有的GPU計算資源。

另外如果還有餘力，想寫一些大學/研究所時基本上沒學過，但是工作就突然要會的一些東西。

雖然目前有很多優化地端模型、加速的方法，但每個方法都會各有優缺，就看使用上要怎麼做平衡了。本文完全不考慮model training或fine-tuning的部分，全部以LLM相關infra知識和各種LLM推理(inference)加速方法為主。

因自身還很資淺，若有哪裡寫得不對，歡迎資深工程師大大們提出，謝謝！

(圖源: 網路)

梗圖解釋：IT infrastructure就像是一座城市的基礎建設，上面跑的車則是程式碼，開車的是工程師。假設不重視infra的話，每建設一條新的高速公路，就隨便往上蓋，最後變得跟迷宮一樣，人開車容易迷路，還會花更久的時間抵達目的地。

假設一般CPU系統的狀況下，蓋的是高速公路，但為了local LLM，GPU要蓋的可能是高速鐵路，那又需要更多的設備經費和專業，出現的問題可能也更多。

適合閱讀的對象

想要了解 AI 或是一般 IT 服務底層 infra 的設計和運作方式的人
有興趣使用 local LLM 做服務，或是希望 local LLM 推理速度可以更快的開發者
設備即使只有一台電腦 + 消費級顯卡也想玩 local LLM 的人
已有多台 GPU server 但不知道該如何做算力分配的開發者
在開發 local LLM 服務過程中，會希望同時考慮到未來維運部分的開發者

[雖然學校會教在別人建的環境中跑程式，但沒有教要怎麼做基礎建設和後續的維運]

(圖源: reddit，這張同樣放在Day28中)

參考資料

參考推理相關技術的論文做分類

A Survey on Efficient Inference for Large Language Models
https://arxiv.org/pdf/2404.14294
LLM Inference Unveiled: Survey and Roofline Model Insights
https://arxiv.org/pdf/2402.16363