iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
自我挑戰組

NLP 新手的 30 天入門養成計畫 系列

從零開始入門 NLP,把自己這 30 天的學習內容展現出來 ~

鐵人鍊成 | 共 30 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day 1] - 關於我入門 NLP 這檔事

2022 年末 ChatGPT 的爆紅,讓所有人的日常生活和工作方式都發生了巨大的變化。對於我來說,過去需要花很多時間完成的 1000 字心得和讀書筆記都可以交...

2024-08-06 ‧ 由 sfg 分享
DAY 2

[Day 2] - 我所知道的自然語言處理

在正式開始學習前,我想先聊聊我所知道的自然語言處理。 在人類漫長的文明史中,語言無疑地佔據了非常重要的一部分,因為有了這項堪稱神器的工具,我們可以把內心的想法明...

2024-08-07 ‧ 由 sfg 分享
DAY 3

[Day 3] - 掌握文本前處理基本功:爬蟲 & 字串處理

在了解什麼是 NLP 以及它可以用在那些地方之後,我們可以進一步思考如何實際把文本變成電腦看的懂、可以處理的資料。 我們在日常生活中,隨時會接觸到許多文本資料,...

2024-08-08 ‧ 由 sfg 分享
DAY 4

[Day 4] - 掌握文本前處理基本功:斷詞 & 去除停用詞

今天是介紹文本前處理的第二篇,我們要來聊聊非常重要的斷詞 ( Tokenization )。 我們平常書寫文章都是用一串完整的句子,譬如: I recently...

2024-08-09 ‧ 由 sfg 分享
DAY 5

[Day 5] - 掌握文本前處理基本功:詞幹提取 & 詞形還原

今天是介紹文本前處理的第三篇,我們已經介紹了四種文本前處理的方式,今天就來把最後兩種講完吧! 今天主要想聊的重點是如何將單詞還原成基本的形式,而這樣做的目的是把...

2024-08-10 ‧ 由 sfg 分享
DAY 6

[Day 6] - 探索句子的本質:詞性標註

通過前面一系列的文本前處理,我們成功將雜亂無章的文本整理完畢,讓電腦可以好好地處理每一個單詞。 不過在一個完整的句子中,每一個單詞被賦予的含意並不是只有它本身被...

2024-08-11 ‧ 由 sfg 分享
DAY 7

[Day 7] - 探索句子的本質:命名實體辨別

命名實體辨別(Named Entity Recognition, NER)也是 NLP 中很重要的任務,它的目的是從句子中提取出關鍵的資訊。 我們昨天提到的詞性...

2024-08-12 ‧ 由 sfg 分享
DAY 8

[Day 8] - 探索句子的本質:句法分析

在前兩天的內容中,我們依序介紹了標註詞性(POS Tagging)和提取實體(NER)的技術,對於探索句子的本質又更近了一步,接下來就可以進入到解析句子結構的主...

2024-08-13 ‧ 由 sfg 分享
DAY 9

[Day 9] - 原來文章是這麼找到的:布林檢索

接下來幾天,就讓我們來聊聊有關於資訊檢索的基本概念吧! 在 NLP 領域中,資訊檢索 ( Information Retrieval, IR ) 是一項應用非常...

2024-08-14 ‧ 由 sfg 分享
DAY 10

[Day 10] - 原來文章是這麼找到的:反向索引

反向索引 ( Inverted Index ) 是資訊檢索中非常重要的一種資料儲存方式,我們接下來要介紹的 TF-IDF 和 BM25 都會用到這個概念。 反向...

2024-08-15 ‧ 由 sfg 分享