簡介 Hugging Face 🤗 Transformers 是訓練 Transformer 模型最知名的套件沒有之一,此套件收入了許多知名模型架構、訓練演算法...
簡介 雖然多數的 Local LLM 不會像 ChatGPT 一樣高達 175B 的參數量,但即便模型只有 7B, 13B,在只有一兩張 3090, 4090...
簡介 Code LLMs 是專門提供程式碼協助的大型語言模型,因為寫程式的情境剛好非常符合 Decoder LM 文字接龍的特性,因此發展比 Chat LLM...
簡介 量化 (Quantization) 是我們這些平民 LLM 玩家最好的夥伴,一般模型在訓練時多使用 32-Bit 或 16-Bit 的浮點數,即便是 7B...
簡介 ONNX Runtime (ORT) 與其他推論框架相比,是個相對古老的框架。但是他的泛用性相當高,可以適用於幾乎任何模型上。而 ORT 不只專注在推論上...
簡介 ggml 是 ggerganov 開發的一個機器學習框架,主打純 C 語言、輕量化且可以在 Apple 裝置上執行等功能。大概 2022 年底的時候,就常...
簡介 vLLM 是來自 UC Berkeley 的 Woosuk Kwon 和 Zhuohan Li 所製作的推論框架,使用 Paged Attention 技...
簡介 Text Generation Inference 簡稱 TGI,是由 Hugging Face 開發的 LLM Inference 框架。其中整合了相當...
簡介 Offloading Inference 主要在探討如何讓 GPU 與其他裝置一起協同推論,例如有些運算放在 CPU,有些記憶體暫存在硬碟裡面。這類的方法...
簡介 上下文學習 (In-Context Learning, ICL) 是一種語言模型的現象,LLM 可以根據提供的範例來產生預測的標記,而不需要任何額外的微調...