你有沒有曾經覺得深度學習模型就像一座高牆難以下手?打開經典論文,裡面的數學推導和公式讓人一頭霧水;去看開源程式碼,卻又覺得太抽象難懂。
其實一切都可以從最簡單的數學公式 Wx+b 開始。因此在這 30 天的學習旅程裡,我會陪你從最基礎的線性層(nn.Linear)出發,帶你一步一步拼湊出神經網路的核心積木。我們會一起動手實作多層感知機(MLP)、卷積網路(CNN)、循環網路(RNN)等熱門架構,最後一路走到 Transformer 與 LLM(大型語言模型),掌握當前最創新的技術。
這不會只是一堂滿滿理論的文章,而是一場邊學邊做的冒險。
前言 今天我們來聊聊 GPT 模型的架構,特別是現在很常見、也很實用的「Decoder-only」設計。這類模型其實已經在各種任務上展現出超強的能力,無論是生成...
前言 在進行中文翻英文的任務時,我們這次使用 GPT-2 進行訓練,並延續先前提到過的資料集與概念。回顧一下之前我們提過像是 [CLS] 和 [SEP] 這類特...
前言 訓練一個語音模型其實比你想的還難,因為你需要大量的語音資料、逐字的轉錄、還有很強的硬體資源。所以大家常見的做法就是先拿一個已經學會很多語音跟語言規則的現成...
前言 今天我們要來聊聊 LLM 的微調技巧。因為 Whisper 是一個參數量非常大的模型,所以我們會簡單介紹一下什麼是 QLoRA,還有怎麼在程式裡面進行量化...