判斷GPU能跑哪個模型 在 ollama.com 找到模型後,在模型頁上顯示模型大小,以「starcoder2 3B」為例https://ollama.com/...
前言 傳統NLP模型比較小,只需要考慮compute bound的,但現在LLM模型很大了,基本上就是考驗memory bound的時代,這章將來介紹LLM與V...
前言 在 Day6 的時候我們提到當context length越長,KV cache也會越大,分配KV cache也成為一個挑戰的工作 🧠。在 Day12 學...