iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

讓電腦聽懂人話:30 天 NLP 入門 系列

說到「資料」,我們腦中常常浮現的都是一串串的數字,但你有沒有想過文字也是一種資料?
電腦的世界充滿著 01001 ,那它又是怎麼「讀懂」我們所說的話呢?

這個系列將從一個語言學學生的角度出發,帶你走進一個文科與理科交會的奇妙領域 —— 自然語言處理(Natural Language Processing)
用輕鬆科普的方式來聊 NLP 的基礎概念、經典方法與應用場景,希望讓毫無程式背景的小白也能一起理解!

參賽天數 22 天 | 共 22 篇文章 | 4 人訂閱 訂閱系列文 RSS系列文 團隊美珠姨
DAY 1

Day 1|什麼是自然語言處理?

引言 升大四那年暑假在思考著人生的下一步時,偶然接觸到了「自然語言處理 NLP」這個 fancy 的名詞。當時一方面是被「外文系也能跟 AI 扯上關係」的噱頭燒...

2025-09-15 ‧ 由 jenn_ccf 分享
DAY 2

Day 2|文字探勘(Text Mining)的挑戰

引言 在這個數位化、大數據的時代,大家應該多多少少有有聽過 資料探勘(Data Minig),當我們想到「資料」,通常第一直覺可能是想到數字或表格,整整齊齊地躺...

2025-09-16 ‧ 由 jenn_ccf 分享
DAY 3

Day 3|NLP 應用概覽

引言 下圖是一則電影評論的留言,大家乍看之下,會覺得這是一則好評還是負評呢?圖片來源:Dcard 即便是我們看這則評論,在缺乏上下文的情況下,可能也會覺得有點難...

2025-09-17 ‧ 由 jenn_ccf 分享
DAY 4

Day 4|文本清理(上):Regex 介紹

引言 近年來 Thread 是個很流行的社群媒體,相信大家在滑脆的時候應該會覺得密密麻麻的文字,看得非常眼花撩亂... 有的貼文會參雜很多表情符號 😘🤡💅🏻...

2025-09-18 ‧ 由 jenn_ccf 分享
DAY 5

Day 5|文本清理(下):Regex 應用

引言 在前一天的內容,我們談到了 Regex 是一套怎樣的規則,以及它是如何用來匹配文字。前一天內容傳送門🚪 但是光知道規則還不夠,我們需要工具來操作這些規則,...

2025-09-19 ‧ 由 jenn_ccf 分享
DAY 6

Day 6|斷詞(上):Tokenization / Segmentation?

引言 接下來要來介紹的是 NLP 中,不可或缺的「斷詞」,也可以說「分詞」!但今天我們不做程式的實作,而是先釐清兩個常見,但可能會有點小混淆的概念:Tokeni...

2025-09-20 ‧ 由 jenn_ccf 分享
DAY 7

Day 7|斷詞(下):中文斷詞工具實作(jieba、CKIP Tagger、spaCy)

引言 昨天我們談到 Tokenization 跟 Segmentation 的差異,知道了拆文字有很多種方式:字、詞、子詞。在中文裡,因為是以字(Charact...

2025-09-21 ‧ 由 jenn_ccf 分享
DAY 8

Day 8|詞性標註(POS Tagging)概念與實作(jieba、CKIP Tagger、spaCy)

引言 詞性標註 Part-of-Speech (POS) tagging 是 NLP 中非常基礎和重要的任務。POS tagging 的目的是為每個詞語標上它的...

2025-09-22 ‧ 由 jenn_ccf 分享
DAY 9

Day 9|從文字到數字:Vector 與 Embedding 的基本概念

引言 我們知道電腦無法像人一樣直接理解文字。要讓電腦「看懂」文字,我們必須先把文字轉換成數字的形式,才能進行後續的分析或建模。 在 主題三:特徵與表示 中,我會...

2025-09-23 ‧ 由 jenn_ccf 分享
DAY 10

Day 10|基礎文字特徵:Bag-of-Words(BoW)

引言 在前一天的內容,我們了解了向量(vector)與 embedding 的概念,知道文字必須轉換成數字,才能讓電腦理解與運算。 今天我們要介紹 Bag-of...

2025-09-24 ‧ 由 jenn_ccf 分享