Paper link | Note link | Code link | ICLR 2024 整體想法 這篇論文提出了圖推理(RoG),通過將大型語言模型(...
Paper link | ICML 2023 整體想法 這項研究提出了一種簡單但有效的表示學習方法,稱為 RLEG,由基於擴散的嵌入生成器指導。 擴散模型在...
Paper link | Code link | AAAI 2024 整體想法 這項研究解決了與大型語言模型(LLMs)事實性評估相關的主要挑戰,並透過複雜...
Paper link | Note link | Code link | ICLR 2023 整體想法 這項研究探討了使用提示策略配合大型語言模型(LLM)...
最近接觸到要將 LLM 放在 Windows 筆電上運行的案子,需對 llama.cpp 做一些自訂選項的編譯,因此無法直接拿 GitHub 上的 Releas...
llama.cpp 是個相當受歡迎的語言模型推論框架,但一些相關的環境配置、編譯手法稍微困難一點,若不是有點技術底,一開始玩起來是頗痛苦。 好在後來作者都會定期...
Groq 是一家美國的人工智慧公司,專注於硬體推論加速器的開發,近期以 LPU (Language Process Unit) 聞名。LPU 就跟 CPU 或...
簡介 困惑度 (Perplexity, PPL) 是個評估語言模型相當實用的指標,用來表示語言模型對一句話的困惑程度。什麼叫困惑程度呢?當我們看到一句話會產生困...
簡介 昨天 Hugging Face Transformers 發布 v4.42 版,其中 Quantized KV Cache 這個功能特別吸引我,看到量化就...
原作者已歸隱(小隱隱於野,中隱隱於市,大隱隱於朝),並且先前的「萌王莉姆露」帳號已經刪除。以下是原作者文章與資訊的彙整。 iThome鐵人賽2023「用Pyth...
簡介 Activation-Aware Weight Quantization (AWQ) 是類似於 GPTQ 的另外一種量化方法,同樣也是透過少量的校準資料集...
介紹 pandas-ai 是一個開源套件,能夠讓使用者用 Prompt 的方式請 LLM 幫忙分析 DataFrame (等價於excel) 裡面的數據。 使用...
簡介 GPTQ 是透過 Post-Training 的方式對模型進行量化,其準確率與速度通常比 bitsandbytes (BNB) 4-Bit 好一些,是個相...
簡介 最近 Hugging Face Transformers 整合了 Flash Attention 2,可以減少記憶體消耗並提昇模型運算的速度,且使用方式非...
前言 前一篇提到 Semantic Kernel對於OpenAI Chat Completions封裝了一些方法,可以幫助開發人員快速的使用以對話為模式的Cha...
前言 有使用過OpenAI或Azure OpenAI平台的開發者,對於Chat Completions API應該不陌生,Chat Completions AP...
前言 Semantic Kernel 提供給了我們一個開發LLM應用的pattern,經過前面的文章內容可以發現到本質上的關鍵還是Prompt,然而,在實際開發...
前言 前面的文章陸續介紹了Semantic Kernel的核心組成,kernel、plugins、connector、Memory,接下來本篇要來介紹最後一個組...
簡介 AI 領域的變化相當快速,很有可能筆者今天寫的介紹,明天框架一個大改就不能用了。或者突然出現一個驚人的模型,取代了所有 Transformer Decod...
簡介 在研究 LLM 相關的授權條款時,主要有三個方向:程式碼的授權、資料集的授權與模型權重的授權。有些相對嚴謹的專案,會將這三種東西的授權設定成不同的授權,而...
續上一篇機器學習 挑戰 - Day 3,我們今天要詳細研究一下如何套用 tensorflow.keras.models的LSTM 來預測BTC的價格。 在應用t...
簡介 要訓練一個模型,首先要有資料。不僅要有很大量的資料,也要有品質很好的資料。資料的品質包含:文句是否通順、格式是否合理、內容是否偏頗、資訊是否有害等等。品質...
前言 一如先前所提,本週迎來Semantic Kernel v1.0.0 Beta1,做為v1.0.0的暖身,當然從preview到v1.0.0不意外的有些破壞...
前言 本篇要來介紹在Semantic Kernel裡,如果要依序執行多個semantic function並且共享上下文,該如何進行?這樣的需求會滿常見的,舉例...
前言 本篇來談談最多人關心的如何在ChatGPT模型中引用企業私有知識庫,目前最常見的做法不外乎是微調(fine-tuning)或embeddings的使用。本...
前言 在連續談了幾篇有關Plugins的使用之後,本篇要暫時脫離Plugins,進入下一個Semantic Kernel組成,稱為Connector連接器。...
簡介 當訓練資料的長度越長,需要的 GPU 記憶體就會越高,因為算出來的梯度會跟著變大。透過 Gradient Checkpointing 可以幫助我們減少梯度...
簡介 在單張消費級顯卡上全微調 (Fully Fine-Tune, FFT) 一個 7B 參數量以上的模型幾乎是不可能的,這時神秘的笑臉再次出手拯救了我們。由...
簡介 接下來要來討論如何微調 (Finetune) 一個大型語言模型。微調 LLM 與微調其他模型其實很相似,但是因為 LLM 的參數量較大,所以訓練的最低需求...
續上一篇機器學習 挑戰 - Day 1,我們今天要來詳細研究一下如何套用machine learning module 來預測BTC的價格。 首先想要研究的是A...