前言 接續昨天的監控介紹和 Day24 的實作篇,今天就要來介紹如何使用開源工具Prometheus和Grafana來監控vLLM的一些硬體與推理指標,最後實作...
前言 前面講完linux的vLLM安裝使用,這次來介紹Windows版本的使用方式,筆者之前剛好借到一台windows電腦+RTX 4060 Ti * 2,就用...
前言 第24天了!最後就在官方文件裡面撈看看還有什麼可以玩的。 ✨ 首先是安裝方式,除了之前試過的linux GPU版本安裝之外,官方文件還提供了linux C...
前言 昨天的教學中,已經學會設定基本的OpenAI-Compatible Server方法了。 簡單回顧一下,若是什麼也沒設定,預設會是使用一個GPU。 🎮 筆...
🚀 vLLM介紹 vLLM是一個速度快、靈活又簡單好用的推理加速框架,主打使用PagedAttention管理kv cache,Model Paralleliz...
摘要這篇文章介紹了一個名為 DSPy 的 AI 開發框架,它能夠幫助開發者更有效地構建和優化語言模型。文章從一個翻譯錯誤檢測任務為例,一步一步地示範了如何使用...
Paper link | Note link | Code link | ICML 2023 整體想法 這篇研究嘗試通過整合包括圖像在內的多模態資訊來開發一...
Paper link | Code link | ICML 2023 整體想法 這項研究採用了人機互動的解釋方法來處理多模態 Transformers 模型...
Paper link | Note link | Code link | NeurIPS 2023 整體想法 這項研究展示了視覺指令調整的有效性。 他們引入...
Paper link | Code link | EMNLP 2023 整體想法 這項研究首次聯合探討了視覺語言預訓練模型(VLP)在視覺問答(VQA)任務...
Paper link | Note link | Code link | EMNLP 2023 整體想法 這項研究對多個大型視覺語言模型(LVLMs)進行了...
簡介 vLLM 是來自 UC Berkeley 的 Woosuk Kwon 和 Zhuohan Li 所製作的推論框架,使用 Paged Attention 技...