NLP 新手的 30 天入門養成計畫

sfg (sfg)

iT邦見習生 ‧ 點數 365

6391

累計瀏覽數

1人

在追蹤

站內簡訊追蹤

鐵人檔案

2024 iThome 鐵人賽

回列表

自我挑戰組

NLP 新手的 30 天入門養成計畫系列

從零開始入門 NLP，把自己這 30 天的學習內容展現出來 ~

鐵人鍊成｜共 30 篇文章｜ 9 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 707 瀏覽

DAY 11

[Day 11] - 原來文章是這麼找到的：TF-IDF (1)

昨天介紹了布林檢索，它的缺點在於只能找出和使用者提問相關的文檔，但並不能說明哪篇文檔的相關性更高，而今天要介紹的 TF-IDF 就可以解決這項問題。 TF-ID...

2024-08-16 ‧ 由 sfg 分享

0 Like 0 留言 720 瀏覽

DAY 12

[Day 12] - 原來文章是這麼找到的：TF-IDF (2)

回顧一下昨天介紹的內容，我們了解 TF-IDF 可以用來計算一個單詞在這篇文章中的重要程度，通過以下兩個指標： TF = ( 單詞在文檔中出現的次數 ) /...

2024-08-17 ‧ 由 sfg 分享

0 Like 0 留言 1352 瀏覽

DAY 13

[Day 13] - 原來文章是這麼找到的：BM25 (1)

BM25 可以說是 TF-IDF 的進階版，BM 是 Best Matching 的縮寫，25 則是修改的版本，由於它在檢索上的表現非常出色而被廣泛使用。這個...

2024-08-18 ‧ 由 sfg 分享

0 Like 0 留言 2150 瀏覽

DAY 14

[Day 14] - 原來文章是這麼找到的：BM25 (2)

昨天介紹了 BM25 的概念，它從 TF-IDF 發展而來，可以找出和使用者提問最相符的多筆文檔，在資訊檢索的領域中非常實用，今天就來實作看看吧！網路上有很多...

2024-08-19 ‧ 由 sfg 分享

0 Like 0 留言 1006 瀏覽

DAY 15

[Day 15] - 怎麼判斷你的檢索結果好不好 (1)

不知不覺也過了兩個星期了，繼續加油吧！我們前面講了好多和資訊檢索相關的內容和計算方式，不過有一個部分沒有提到，那就是評估檢索結果的方法。這個部分乍看之下好像...

2024-08-20 ‧ 由 sfg 分享

0 Like 0 留言 1549 瀏覽

DAY 16

[Day 16] - 怎麼判斷你的檢索結果好不好 (2)

昨天提到了可以通過 Precision 和 Recall 的計算方式來判斷我們檢索出來的結果好不好，然而這是在不考量文檔排名的情況下所做出的評估，如果使用 BM...

2024-08-21 ‧ 由 sfg 分享

0 Like 0 留言 745 瀏覽

DAY 17

[Day 17] - 簡單介紹貝式分類器在 NLP 的應用

我規劃的下一個篇章是如何將非結構化的文字轉換成向量的形式，讓電腦可以處理，不過在這之前，我想要先來聊聊貝式分類器是如何應用在 NLP 任務上的。根據我有點模糊...

2024-08-22 ‧ 由 sfg 分享

0 Like 0 留言 1358 瀏覽

DAY 18

[Day 18] - 文字向量化的前世今生：簡介

在過去的幾天，我們陸續介紹了各種前處理的技術，並實際應用在資訊檢索的主題裡面。接下來，我們要嘗試把非結構化的文字轉成數值型態的向量，讓電腦學會每一個單詞代表的意...

2024-08-23 ‧ 由 sfg 分享

0 Like 0 留言 627 瀏覽

DAY 19

[Day 19] - 文字向量化的前世今生：詞袋

接下來要介紹的是詞袋 ( Bag of Words, BoW )，它也是文本轉數值資料的一種方法。在昨天的文章中，我們已經對它做了簡單的介紹，今天就來詳細聊聊吧...

2024-08-24 ‧ 由 sfg 分享

0 Like 0 留言 1078 瀏覽

DAY 20

[Day 20] - 文字向量化的前世今生：Word2Vec

我們昨天把詞袋 ( BoW ) 的概念和實作講完了，今天來聊聊更進階的 Word2Vec。我們在 Day 18 介紹各種文本表示方式的時候，有提到詞嵌入 (...

2024-08-25 ‧ 由 sfg 分享

sfg的鐵人檔案

sfg的收藏

sfg的追蹤

sfg的Like

sfg的紀錄

sfg的訂閱列表

鐵人檔案

NLP 新手的 30 天入門養成計畫 系列

標記使用者

NLP 新手的 30 天入門養成計畫系列