你有沒有曾經覺得深度學習模型就像一座高牆難以下手?打開經典論文,裡面的數學推導和公式讓人一頭霧水;去看開源程式碼,卻又覺得太抽象難懂。
其實一切都可以從最簡單的數學公式 Wx+b 開始。因此在這 30 天的學習旅程裡,我會陪你從最基礎的線性層(nn.Linear)出發,帶你一步一步拼湊出神經網路的核心積木。我們會一起動手實作多層感知機(MLP)、卷積網路(CNN)、循環網路(RNN)等熱門架構,最後一路走到 Transformer 與 LLM(大型語言模型),掌握當前最創新的技術。
這不會只是一堂滿滿理論的文章,而是一場邊學邊做的冒險。
前言 現在做資料分析或機器學習,選模型這件事真的很重要。除了那些大家常聽到的分類、回歸這類基本模型,其實還有一種比較特別的模型,它專門拿來處理時間序列資料。 這...
前言 昨天你學過 LSTM但你肯定還搞不清楚它到底在做什麼,而今天我會帶你從零手刻一個雙層 LSTM,並套用在經典的 IMDB 影評情緒分類任務中。這篇重點不在...
前言 模型大致上可以分成兩大類分類型的跟生成型的。通常分類的模型會用到 Encoder 架構,也就是我們前面幾個章節提到的那些內容,其實都是在講 Encoder...
前言 不管是 LSTM 還是 RNN,只要時間步太多,就很容易遇到梯度消失的問題——這點我們在 Day 11 也有提過。當資料一路傳到最後一個 context...
前言 昨天我們把 Seq2Seq 搭配 Attention 的模型結構完整實作出來,而今天的重點就放在訓練與應用,讓它能處理基本的中英翻譯。那問題來了怎麼判斷這...
前言 這幾天我會陸續和大家介紹 Transformer 模型的結構細節。老實說這個模型的重要性真的不容小覷,它幾乎可以說是現在 AI 世界的核心。不誇張地說只要...
前言 在深度學習的世界裡,從頭開始訓練一個模型,不只費時,還非常燒資源。更不用說為了讓訓練有效果,還得準備大量資料,這正是許多人卡關的地方。畢竟資料不是想收就收...
前言 在自然語言處理的世界裡BERT 可說是近十年來最具代表性的模型之一,它不僅改寫了多項語言任務的表現標準,更奠定了後續各類 Transformer 模型的核...
前言 這幾天從 Day 16 到 Day 18,我們把 Transformer 的數學公式拆得超細,連帶著整個 BERT 的架構也講得蠻透徹了。現在,是時候來點...
前言 前一章我們拆解了 Transformer Encoder 的結構,從多層的 Self-Attention 到 Feed Forward Network,看...