iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

30天內成為NLP大師:掌握關鍵工具和技巧 系列

近幾個月來,因ChatGPT的出現,推動了NLP領域的發展。

在本次鐵人賽的挑戰中,我會通過這30天的時間來講述NLP領域中的熱門模型背後的技術原理(例如:Transformer、BERT、GPT),並從實際的應用中,來撰寫這些模型的程式碼,以加深我們對該模型的映象。

同時我會還會使用不同的工具,來分析這些文字之間的關聯性,並對此結果加以解釋,從而一步步的理解NLP模型中的共同之處與運算方式。

鐵人鍊成 | 共 30 篇文章 | 13 人訂閱 訂閱系列文 RSS系列文
DAY 1

【Day 1】學習NLP前我們應該要準備什麼?

前言 在去年的這個時候,我參加了2022年的iThome鐵人賽,起初的原因是想要找一個平台來儲存個人筆記並與他人分享。雖然在比賽中我取得了佳作的成績,但我認為那...

2023-09-16 ‧ 由 austin70915 分享
DAY 2

【Day 2】電腦該怎麼理解人類的語言 (上) - 文字怎麼輸入到模型中

今日學習重點 今天的主要內容是快速理解文字輸入給模型時所需進行的轉換動作,而這些轉換的概念和技術則是自然語言處理領域中的基本操作。對於深入研究和應用自然語言處理...

2023-09-17 ‧ 由 austin70915 分享
DAY 3

【Day 3】電腦該怎麼理解人類的語言 (下) - 模型理解文字的方式

今日學習重點 我們昨日學習了如何進行詞彙的劃分以及建立標記器,今天我們將繼續進階內容,探討模型如何理解文字。今日的主要學習內容將包含以下三點: One-hot...

2023-09-18 ‧ 由 austin70915 分享
DAY 4

【Day 4】Pytorch & TorchText的正確開啟方式

今日學習重點 TorchText是PyTorch生態系統中的一個函式庫,它的主要目的是為了簡化文字資料的處理與NLP模型建構的過程,不過該函式庫基於PyTorc...

2023-09-19 ‧ 由 austin70915 分享
DAY 5

【Day 5】深度神經網路該怎麼改變Embedding向量(上)-揭密神經網路訓練的過程

今日學習重點 訓練深度學習模型實質上就是計算答案與優化答案的過程,在此過程中常常涉及許多複雜的計算,而在今天我們將探討深度學習能自動抽取特徵的原因以及講講整個模...

2023-09-20 ‧ 由 austin70915 分享
DAY 6

【Day 6】深度神經網路該怎麼改變Embedding向量(下)-PyTorch訓練的策略和方法

今日學習重點 前幾日我們已經把自然語言處理的基礎知識都學習完畢了,所以在今日最主要的目的就是將這些理論都轉換成程式碼,而我會在撰寫這些程式碼的同時告訴你,該部分...

2023-09-21 ‧ 由 austin70915 分享
DAY 7

【Day 7】文字也是一種有時間序列的資料(上)-時間序列模型大揭密

前言 經過前幾日的訓練,我相信你已對自然語言處理有初步的理解,因此從今天開始,我將轉變教學方向,開始導讀現今NLP中常用的技術,而今天的主題我會介紹時間序列模型...

2023-09-22 ‧ 由 austin70915 分享
DAY 8

【Day 8】文字也是一種有時間序列的資料(下)-用IMDB影評探索文字中的情緒

前言 今天的內容非常的重要,因為模型訓練與評估的方式,直接影響到了模型最終的效能,我們在【Day 6】深度神經網路該怎麼改變Embedding向量(下)-PyT...

2023-09-23 ‧ 由 austin70915 分享
DAY 9

【Day 9】掌握文字翻譯的技術(上)-Seq2Seq與時間序列模型

今日學習重點 昨天我們撰寫了大量的程式碼,所以現在你的大腦可能會有些混亂,因此今天我們不打算學習太多新知識,而是讓你讓心情先平復一下,所以我們來稍微了解一下時間...

2023-09-24 ‧ 由 austin70915 分享
DAY 10

【Day 10】掌握文字翻譯的技術(中)-為何需要注意力機制

今日學習重點 現在你已經了解一些有關於Seq2Seq的知識,接下來我們要告訴你的是注意力機制(Attention)的特點,以及它如何解決僅通過上下文向量傳遞資訊...

2023-09-25 ‧ 由 austin70915 分享