iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
自我挑戰組

NLP 新手的 30 天入門養成計畫 系列

從零開始入門 NLP,把自己這 30 天的學習內容展現出來 ~

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文
DAY 11

[Day 11] - 原來文章是這麼找到的:TF-IDF (1)

昨天介紹了布林檢索,它的缺點在於只能找出和使用者提問相關的文檔,但並不能說明哪篇文檔的相關性更高,而今天要介紹的 TF-IDF 就可以解決這項問題。 TF-ID...

2024-08-16 ‧ 由 sfg 分享
DAY 12

[Day 12] - 原來文章是這麼找到的:TF-IDF (2)

回顧一下昨天介紹的內容,我們了解 TF-IDF 可以用來計算一個單詞在這篇文章中的重要程度,通過以下兩個指標: TF = ( 單詞在文檔中出現的次數 ) /...

2024-08-17 ‧ 由 sfg 分享
DAY 13

[Day 13] - 原來文章是這麼找到的:BM25 (1)

BM25 可以說是 TF-IDF 的進階版,BM 是 Best Matching 的縮寫,25 則是修改的版本,由於它在檢索上的表現非常出色而被廣泛使用。 這個...

2024-08-18 ‧ 由 sfg 分享
DAY 14

[Day 14] - 原來文章是這麼找到的:BM25 (2)

昨天介紹了 BM25 的概念,它從 TF-IDF 發展而來,可以找出和使用者提問最相符的多筆文檔,在資訊檢索的領域中非常實用,今天就來實作看看吧! 網路上有很多...

2024-08-19 ‧ 由 sfg 分享
DAY 15

[Day 15] - 怎麼判斷你的檢索結果好不好 (1)

不知不覺也過了兩個星期了,繼續加油吧! 我們前面講了好多和資訊檢索相關的內容和計算方式,不過有一個部分沒有提到,那就是評估檢索結果的方法。 這個部分乍看之下好像...

2024-08-20 ‧ 由 sfg 分享
DAY 16

[Day 16] - 怎麼判斷你的檢索結果好不好 (2)

昨天提到了可以通過 Precision 和 Recall 的計算方式來判斷我們檢索出來的結果好不好,然而這是在不考量文檔排名的情況下所做出的評估,如果使用 BM...

2024-08-21 ‧ 由 sfg 分享
DAY 17

[Day 17] - 簡單介紹貝式分類器在 NLP 的應用

我規劃的下一個篇章是如何將非結構化的文字轉換成向量的形式,讓電腦可以處理,不過在這之前,我想要先來聊聊貝式分類器是如何應用在 NLP 任務上的。 根據我有點模糊...

2024-08-22 ‧ 由 sfg 分享
DAY 18

[Day 18] - 文字向量化的前世今生:簡介

在過去的幾天,我們陸續介紹了各種前處理的技術,並實際應用在資訊檢索的主題裡面。接下來,我們要嘗試把非結構化的文字轉成數值型態的向量,讓電腦學會每一個單詞代表的意...

2024-08-23 ‧ 由 sfg 分享
DAY 19

[Day 19] - 文字向量化的前世今生:詞袋

接下來要介紹的是詞袋 ( Bag of Words, BoW ),它也是文本轉數值資料的一種方法。在昨天的文章中,我們已經對它做了簡單的介紹,今天就來詳細聊聊吧...

2024-08-24 ‧ 由 sfg 分享
DAY 20

[Day 20] - 文字向量化的前世今生:Word2Vec

我們昨天把詞袋 ( BoW ) 的概念和實作講完了,今天來聊聊更進階的 Word2Vec。 我們在 Day 18 介紹各種文本表示方式的時候,有提到詞嵌入 (...

2024-08-25 ‧ 由 sfg 分享