iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
AI & Data

語言學與NLP 系列

以語言學與NLP(自然語言處理)為出發,讓更多人認識語言學,了解語言學在機器學習、AI等現代科技中的應用

鐵人鍊成 | 共 30 篇文章 | 14 人訂閱 訂閱系列文 RSS系列文 團隊KnULPers_from_NCCU
DAY 1

Day 1 語言學與自然語言處理(NLP)介紹篇

何謂語言學? 在整個語言學與自然語言處理 NLP (Natural Language Processing)的旅程開始之前,想要先和大家聊聊何謂語言學。其實,大...

2022-09-16 ‧ 由 cjom06991 分享
DAY 2

Day 2 語言學與自然語言處理 環境安裝篇

先複習一下自然語言處理(NLP)在做什麼~ NLP 是計算機科學、計算語言學以及人工智慧的子領域,主要目的為如何讓計算機處理並分析大量人類的自然語言資料與數據。...

2022-09-17 ‧ 由 cjom06991 分享
DAY 3

Day 3 語料預處理 (Pre-processing) 解說+實作

相信大家讀完前兩篇的內容後,對於自然語言處理都已經有些基本的認識。接下來,在執行 NLP 操作以及在實際進入 code 之前,讓我們一起來理解 NLP 任務的執...

2022-09-18 ‧ 由 cjom06991 分享
DAY 4

Day 4 語料預處理 斷詞與停用詞篇

延續昨天講解的 pre-processing 步驟,另一項重要的步驟就是斷詞(tokenization)。在網路爬蟲取得語料之後,先用前一篇提到的 regula...

2022-09-19 ‧ 由 cjom06991 分享
DAY 5

Day 5 資料型態介紹 前篇

熟悉一個程式語言,非常重要的一點就是了解它的資料型態。在進行語料處理與 NLP 任務時也會遇到各式各樣的資料型態,有時候為了使用特定的模型來訓練資料也會需要把資...

2022-09-20 ‧ 由 cjom06991 分享
DAY 6

Day 6 資料型態介紹 後篇

今天要介紹的資料型態分別是 list、matrix 和 data frame。這三種資料型態主要的功能就是將資料排列成結構狀。首先就從 list 開始吧! li...

2022-09-21 ‧ 由 cjom06991 分享
DAY 7

Day 7 把文字裝成一袋?Bag of Word (BoW) & TF-IDF 在 NLP 中的應用

今天主要介紹 NLP 任務中常用的統計方法。大家是否會覺得很神奇,明明主要是處理文字,為什麼在 NLP 中會用到統計方法呢?其實是因為 NLP 涵蓋的研究範圍很...

2022-09-22 ‧ 由 cjom06991 分享
DAY 8

Day 8 一起來把資料以美美的樣子呈現吧!

看到今天的標題應該知道要做什麼了吧?是的~就是將資料整理,並以圖表呈現的「資料視覺化」(data visualization)。資料視覺化是資料呈現的一種非常重...

2022-09-23 ‧ 由 cjom06991 分享
DAY 9

Day 9 來自製簡單的文字雲

什麼是文字雲呢? 文字雲(Word Cloud),顧名思義就是很多很多的文字匯集成像雲朵一樣的形狀。想必大家對這項視覺化的產物都不陌生吧?那麼,文字雲有什麼好處...

2022-09-24 ‧ 由 cjom06991 分享
DAY 10

Day 10 一篇搞懂 R 語言的迴圈 Loop

今天要帶大家認識 R 語言的迴圈寫法。可能大家聽到 loop 都會有一點懼怕,覺得是比較複雜的程式語言。的確,寫 loop 是非常考驗邏輯的一件事,我自己初學程...

2022-09-25 ‧ 由 cjom06991 分享