iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

零基礎 AI 入門!從 Wx+b 到熱門模型的完整之路! 系列

你有沒有曾經覺得深度學習模型就像一座高牆難以下手?打開經典論文,裡面的數學推導和公式讓人一頭霧水;去看開源程式碼,卻又覺得太抽象難懂。

其實一切都可以從最簡單的數學公式 Wx+b 開始。因此在這 30 天的學習旅程裡,我會陪你從最基礎的線性層(nn.Linear)出發,帶你一步一步拼湊出神經網路的核心積木。我們會一起動手實作多層感知機(MLP)、卷積網路(CNN)、循環網路(RNN)等熱門架構,最後一路走到 Transformer 與 LLM(大型語言模型),掌握當前最創新的技術。

這不會只是一堂滿滿理論的文章,而是一場邊學邊做的冒險。

參賽天數 24 天 | 共 24 篇文章 | 2 人訂閱 訂閱系列文 RSS系列文
DAY 11

【Day 11】賦予 WX+b 時序感知力神經網路如何理解過去與未來

前言 現在做資料分析或機器學習,選模型這件事真的很重要。除了那些大家常聽到的分類、回歸這類基本模型,其實還有一種比較特別的模型,它專門拿來處理時間序列資料。 這...

2025-09-25 ‧ 由 austin70915 分享
DAY 12

【Day 12】「你真的懂LSTM嗎?」手刻雙向LSTM讓你從不會到秒懂!

前言 昨天你學過 LSTM但你肯定還搞不清楚它到底在做什麼,而今天我會帶你從零手刻一個雙層 LSTM,並套用在經典的 IMDB 影評情緒分類任務中。這篇重點不在...

2025-09-26 ‧ 由 austin70915 分享
DAY 13

【Day 13】模型真的理解語言嗎?從 Seq2Seq 看 AI 如何學會翻譯

前言 模型大致上可以分成兩大類分類型的跟生成型的。通常分類的模型會用到 Encoder 架構,也就是我們前面幾個章節提到的那些內容,其實都是在講 Encoder...

2025-09-27 ‧ 由 austin70915 分享
DAY 14

【Day 14】模型記性差?Attention 來幫忙!

前言 不管是 LSTM 還是 RNN,只要時間步太多,就很容易遇到梯度消失的問題——這點我們在 Day 11 也有提過。當資料一路傳到最後一個 context...

2025-09-28 ‧ 由 austin70915 分享
DAY 15

【Day 15】Attention is All You Need?先別急來看看 LSTM 的最後一舞

前言 昨天我們把 Seq2Seq 搭配 Attention 的模型結構完整實作出來,而今天的重點就放在訓練與應用,讓它能處理基本的中英翻譯。那問題來了怎麼判斷這...

2025-09-29 ‧ 由 austin70915 分享
DAY 16

【Day 16】從零開始拆 Transformer,原來 Encoder 是這樣運作的!

前言 這幾天我會陸續和大家介紹 Transformer 模型的結構細節。老實說這個模型的重要性真的不容小覷,它幾乎可以說是現在 AI 世界的核心。不誇張地說只要...

2025-09-30 ‧ 由 austin70915 分享
DAY 17

【Day 17】只懂 Wx + b 也能搞懂 BERT?當然可以!

前言 在深度學習的世界裡,從頭開始訓練一個模型,不只費時,還非常燒資源。更不用說為了讓訓練有效果,還得準備大量資料,這正是許多人卡關的地方。畢竟資料不是想收就收...

2025-10-01 ‧ 由 austin70915 分享
DAY 18

【Day 18】一篇文章讓你搞懂BERT預訓練任務與模型實作(MLM + NSP)

前言 在自然語言處理的世界裡BERT 可說是近十年來最具代表性的模型之一,它不僅改寫了多項語言任務的表現標準,更奠定了後續各類 Transformer 模型的核...

2025-10-02 ‧ 由 austin70915 分享
DAY 19

【Day 19】看起來很簡單?BERT 實作假新聞分類超簡單教學

前言 這幾天從 Day 16 到 Day 18,我們把 Transformer 的數學公式拆得超細,連帶著整個 BERT 的架構也講得蠻透徹了。現在,是時候來點...

2025-10-03 ‧ 由 austin70915 分享
DAY 20

【Day 20】Decoder 為何會胡說八道 Transformer 的生成機制與幻覺真相

前言 前一章我們拆解了 Transformer Encoder 的結構,從多層的 Self-Attention 到 Feed Forward Network,看...

2025-10-04 ‧ 由 austin70915 分享