iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

零基礎 AI 入門!從 Wx+b 到熱門模型的完整之路! 系列

你有沒有曾經覺得深度學習模型就像一座高牆難以下手?打開經典論文,裡面的數學推導和公式讓人一頭霧水;去看開源程式碼,卻又覺得太抽象難懂。

其實一切都可以從最簡單的數學公式 Wx+b 開始。因此在這 30 天的學習旅程裡,我會陪你從最基礎的線性層(nn.Linear)出發,帶你一步一步拼湊出神經網路的核心積木。我們會一起動手實作多層感知機(MLP)、卷積網路(CNN)、循環網路(RNN)等熱門架構,最後一路走到 Transformer 與 LLM(大型語言模型),掌握當前最創新的技術。

這不會只是一堂滿滿理論的文章,而是一場邊學邊做的冒險。

鐵人鍊成 | 共 30 篇文章 | 3 人訂閱 訂閱系列文 RSS系列文
DAY 21

【Day 21】從 Wx+b 到能寫詩的模型GPT-2 的煉成

前言 今天我們來聊聊 GPT 模型的架構,特別是現在很常見、也很實用的「Decoder-only」設計。這類模型其實已經在各種任務上展現出超強的能力,無論是生成...

2025-10-05 ‧ 由 austin70915 分享
DAY 22

【Day 22】不靠 Encoder?用 GPT-2 試試翻譯的可能性

前言 在進行中文翻英文的任務時,我們這次使用 GPT-2 進行訓練,並延續先前提到過的資料集與概念。回顧一下之前我們提過像是 [CLS] 和 [SEP] 這類特...

2025-10-06 ‧ 由 austin70915 分享
DAY 23

【Day 23】語音模型原來長這樣?Wx+b拆給你看Whisper 架構!

前言 訓練一個語音模型其實比你想的還難,因為你需要大量的語音資料、逐字的轉錄、還有很強的硬體資源。所以大家常見的做法就是先拿一個已經學會很多語音跟語言規則的現成...

2025-10-07 ‧ 由 austin70915 分享
DAY 24

【Day 24】LoRA 是什麼?一篇文章教你 Whisper 中文微調全流程!

前言 今天我們要來聊聊 LLM 的微調技巧。因為 Whisper 是一個參數量非常大的模型,所以我們會簡單介紹一下什麼是 QLoRA,還有怎麼在程式裡面進行量化...

2025-10-08 ‧ 由 austin70915 分享
DAY 25

【Day 25】語言模型的認知轉向,GPT 系列中的提示學習與指令學習解析

前言 自從 GPT-2 問世以來,OpenAI 很快就推出了功能更強大的 GPT-3這個版本不只是模型參數暴增,連訓練資料的規模也大幅提升。但真正令人注意的是,...

2025-10-09 ‧ 由 austin70915 分享
DAY 26

【Day 26】GPT 落伍了嗎?來看看 LLaMA 怎麼反向壓制參數怪獸

前言 自從 GPT 系列爆紅之後大家一提到大型語言模型,腦中浮現的幾乎都是那幾個熟悉的縮寫 GPT-2、GPT-3、GPT-4⋯⋯ 但有趣的是這幾年另一條技術支...

2025-10-10 ‧ 由 austin70915 分享
DAY 27

【Day 27】RoPE(x) = cosθx + sinθ(-x)?LLaMA 3 的 Wx + b 的完整拆解

前言 今天這篇文章我們就要從 HuggingFace 的 LLaMA 3 實作出發,帶大家完整解析其內部架構與運作邏輯。特別聚焦在 Transformer 模型...

2025-10-11 ‧ 由 austin70915 分享
DAY 28

【Day 28】弱智吧 is all you need?教AI聽懂亂流語言的奇幻旅程

前言 今天我們要來談談一個很好玩的資料集"弱智吧",沒錯你沒看錯就是那個在網路上以瘋言瘋語、奇思妙想著稱的討論區。乍看之下這種地方的對話充滿...

2025-10-12 ‧ 由 austin70915 分享
DAY 29

【Day 29】Decoder-only 模型也能搞定 NER?用 LLaMA3 找出個資

前言 為什麼今天特別想聊聊 base model 呢?因為跟那些早就被綁定特定任務的成品模型比起來,base model 靈活多了、可塑性也更高。我們可以根據需...

2025-10-13 ‧ 由 austin70915 分享
DAY 30

【Day 30】不是模型變強是你變懂 Decoder-only 訓練中的那些事

前言 今天我們要進一步探索如何更有效地使用 Decoder-only 模型進行微調。不過在正式進入主題之前,我想先帶入一點小巧思如果語言模型本身已經夠強大,那我...

2025-10-14 ‧ 由 austin70915 分享