第十六屆 佳作

ai-ml-data
從零開始學AI:數學基礎與程式碼撰寫全攻略
austin70915

系列文章

DAY 21

【Day 21】用Transformer來進行文本摘要

前言 在今天的內容中,我們不會像在Seq2Seq模型中那樣,所有元件都需要自己手寫。因為在Pytorch中,其實已經有幫我們定義好Transformer的框架。...

DAY 22

【Day 22】何謂遷移式學習? 預訓練模型又是什麼?

前言 在Seq2Seq與Transformer的章節中,如果你有跟著我們的內容進行訓練,你可能會發現:欸?怎麼訓練一個週期的時間都需要用到1小時呢?而我們花費這...

DAY 23

【Day 23】BERT的出現雙向Transformer模型的崛起與強大預訓練策略

前言 在今天,我們要介紹一個在預訓練模型中相當經典的模型。基本上,我們可以認為這個模型就是一個Transformer模型,但它的預訓練策略非常強大,使其成為20...

DAY 24

【Day 25】Decoder Transformer的模型演進 - 從GPT-1到GPT-3的技術突破介紹

前言 如果說BERT是Transformer的Encoder代表,那麼今天提到的GPT系列模型可以說是Decoder的代表。這些模型的架構與技術原理奠定了當今許...

DAY 25

【Day 24】用BERT再次進行IMDB情緒分析

前言 這次我們為了體驗BERT與我們最初學習的LSTM究竟有多少不同,今天依然使用IMDB這個資料集進行處理。而在本章節中,我們主要是讓你熟悉Hugging F...

DAY 26

【Day 26】用GPT-2解squad_v2問答資料集 - Prompting Learning與遮蔽策略的調整

前言 在今天的教學中,我會介紹如何訓練一個只有Decoder部分的模型。我們選用GPT系列中的GPT-2進行訓練,並使用squad_v2這個資料集進行語意理解和...

DAY 27

【Day 27】大型語言模型的常用技巧Instruction Learning 與 COT Few-Shot 技術解析

前言 在大型語言模型的領域,除了GPT-3中提到的Prompting與Few-shot等技術之外,還有許多衍生的應用。第一個應用是由於GPT-3生成的文字存在高...

DAY 28

【Day 28】Meta大規模語言模型 LLaMA 介紹:LLaMA 系列的歷史與數學推導

前言 LLaMA(Large Language Model Meta AI)系列大型語言模型是Meta公司在自然語言處理領域的重要進展,每一代的開發都展示了強大...

DAY 29

【Day 29】探索大型語言模型的高效微調方式與優化技巧:QLoRA 和 NEFTune

前言 在最新的自然語言技術進展中,語言模型的規模變得越來越龐大,模型的參數量從數百萬到數十億,甚至上千億。雖然這些大型語言模型在許多任務中表現出卓越的能力,但也...

DAY 30

【Day 30】用LLaMA 3訓練屬於你的鄉民風格聊天機器人 - 從資料轉換到微調的完整教學

前言 今天是整個系列的最後一天啦,在系列結尾,我會告訴你如何訓練一個屬於自己的聊天機器人。這在企業的內部培訓或解答系統中非常有用。我們只需要請每位員工列出他們可...