iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

30天內成為NLP大師:掌握關鍵工具和技巧 系列

近幾個月來,因ChatGPT的出現,推動了NLP領域的發展。

在本次鐵人賽的挑戰中,我會通過這30天的時間來講述NLP領域中的熱門模型背後的技術原理(例如:Transformer、BERT、GPT),並從實際的應用中,來撰寫這些模型的程式碼,以加深我們對該模型的映象。

同時我會還會使用不同的工具,來分析這些文字之間的關聯性,並對此結果加以解釋,從而一步步的理解NLP模型中的共同之處與運算方式。

鐵人鍊成 | 共 30 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文
DAY 11

【Day 11】掌握文字翻譯的技術(下)-英法語言翻譯模型

今日學習重點 今天我們終於來到了文字翻譯技術的總結了,這次的內容會非常複雜,你可以將其想像為我們從第1天到第10天學習到的知識的綜合體,所以在今天我將把這些程式...

2023-09-26 ‧ 由 austin70915 分享
DAY 12

【Day 12】該如何選擇損失函數與激勵函數?中文該如何斷詞?

今日學習重點 先前有些重要的知識我們尚未完全補充,因此我在今天我將會把這些部分都告訴你,讓你知道我們為何選擇使用此種損失函數與激勵函數,同時也會實作我一直未提及...

2023-09-27 ‧ 由 austin70915 分享
DAY 13

【Day 13】預訓練模型的強大之處? 我們要怎麼使用它?

前言 現在許多企業都不是從零開始訓練模型,而是使用大型企業提供的預訓練模型(pre-trained model)以實現企業自身的目標,而在這個步驟中,接著他們會...

2023-09-28 ‧ 由 austin70915 分享
DAY 14

​【Day 14】​解析詞嵌入預訓練模型的奧秘(上)-深度探索Word2Vec的奧妙之處

前言 我們之前有學過要訓練一個優質的自然語言處理模型,必須打造出一個良好的詞嵌入向量,因此在今天的文章裡,我將為你介紹Word2Vec預訓練模型的訓練原理以及其...

2023-09-29 ‧ 由 austin70915 分享
DAY 15

​【Day 15】​解析詞嵌入預訓練模型的奧秘(中)-全域統計的重要性GloVe技術解析

前言 我們昨天提到,Word2Vec在分析句子時忽視了詞彙的順序信息,這是因為它並未考慮到整體詞彙的訊息而僅集中於局部,並且我們在講解Seq2Seq+Atten...

2023-09-30 ‧ 由 austin70915 分享
DAY 16

【Day 16】解析詞嵌入預訓練模型的奧秘(下)-fastText中Subword建立的重要性

前言 今天我們將結束對詞嵌入預訓練模型理論的討論,在前面的幾天中你可能會發現範例程式碼中,有些部分和公式有所出入,這是因為這些詞嵌入預訓練模型原本並非「深度學習...

2023-10-01 ‧ 由 austin70915 分享
DAY 17

【Day 17】解析詞嵌入預訓練模型的奧秘(終)-利用預先訓練的詞嵌入來保護隱私

前言 首先我要為你們先打好預防針,因為今天的程式碼量非常龐大,這次我們將會一次性地處理Word2Vec、FastText、GloVe各模型的文字前處理方式,並且...

2023-10-02 ‧ 由 austin70915 分享
DAY 18

【Day 18】會根據上下文改變的詞嵌入向量 (上) - 預訓練模型ELMo震撼登場

前言 我們之前提到的幾項技術都有其獨特的問題,例如word2vec常常會忽視詞彙的順序信息,而GLoVe則無法充分理解資料的詞性,至於時間序列模型則只能學習到下...

2023-10-03 ‧ 由 austin70915 分享
DAY 19

【Day 19】會根據上下文改變的詞嵌入向量 (下) - ELMo該如何使用與Embedding可視化

前言 過去我們已經完成了情緒分析、文字生成、去識別化等等的NLP任務,這些任務分別代表分類、生成、及命名實體(NER) 這些也就是自然語言處理中的三大任務,基本...

2023-10-04 ‧ 由 austin70915 分享
DAY 20

【Day 20】萬物皆可Transformer(上)-Transformer中所使用的技巧解析

前言 昨天我們以精簡的內容來加深你對ELMo的理解,而內容簡短的原因除了其訓練方式與Word2Vec等相似之外,最主要的理由在於今天將介紹的內容極為重要,所以我...

2023-10-05 ‧ 由 austin70915 分享