此系列是筆者的工作心得和學習 Local LLM 推理的筆記,分享一些 🏗️ 基礎建設 (Infrastructure)和 🧠 LLM 推理 (Inference)的相關知識,一起在運算資源不足的狀況下創造奇蹟✨🌟,成為生成式AI的運用高手!!!
在這裡我們有:
📚 LLM 推理基礎知識
🚀 推理加速相關技術 (理論)
⚙️ Local LLM 推理加速框架 (實作)
🏢 資料中心與分散式系統
前言 - 為什麼基礎建設很重要? 嗨嗨,大家好,我是精靈。 身為畢業兩年左右的菜鳥,因為意外不小心跳入了infra火坑,爬上來之後又意外吃了LLM這塊餅。接觸了...
LLM大坑簡介 大型語言模型(LLM)的出現讓自然語言處理(NLP)有重大革命,以往NLP分成各式各樣的任務,像是翻譯、分類、摘要、資訊擷取等等,原本每一個任務...
剛學習LLM的時候,只會知道要用GPU,因為他的平行計算能力比較快。不過真的只有這樣嗎? (圖源: 自製) 在運算的過程中,最主要會消耗的是大量的記憶體(資料...
這一篇將介紹LLM服務有關推理計算的評估指標 (Computation evaluation metrics)。 這個分類是參考論文Beyond Efficie...
前言 以前在infra的時代,都是一個人顧幾百台的server,其中當也幾台是GPU server,可惜當時只知道怎麼維運監控報修打雜;在學校時設備前人都弄好了...
前言 傳統NLP模型比較小,只需要考慮compute bound的,但現在LLM模型很大了,基本上就是考驗memory bound的時代,這章將來介紹LLM與V...
前言 在AI時代,尤其是LLM的快速發展、計算需求劇增的狀況下,很常在一些新聞中看到「AI算力即國力」這個用法,而上個月Eric Schmidt在史丹佛下架但被...
前言 相信大家在學校時可能看過小型機房,而大型資料中心通常包含多個機房。筆者曾有參觀過較為正式的機房,除了冷氣很強之外,會有嚴謹的溫控設計,像是冷熱通道分離。進...
前言 這章來整理一下目前看到的繁體中文LLM,以及怎麼選擇適合自己任務的local LLM。 找local Model最重要的是模型的推理能力,模型對於特定任務...
前言 從這章開始,將進入推理加速相關技術的理論章節 🚀。 這些理論都已經都有被應用在一些知名框架當中,其實3分鐘就可以輕鬆應用了。但是如果客戶或面試官問說這些...