iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
AI & Data

文理組人都能上手的入門 NLP(自然語言處理) 系列

由語言學專業的學生撰寫之自然語言處理學習筆記
從語言學的角度看機器學習及深度學習之應用
以淺顯易懂的方式解析語言學及AI之間的關係
從文字資料的處理出發到模型的訓練及應用
並以python示範
希望不管是文組人還是理組人都能藉此理解自然語言處理之概念

鐵人鍊成 | 共 31 篇文章 | 24 人訂閱 訂閱系列文 RSS系列文 團隊KnULPers_from_NCCU
DAY 10

[Day 10] 時間都去哪了?資料前處理:成為聽懂人話的社畜之第一步-斷詞斷句(中)

  嗨大家!昨天簡單介紹了斷詞對NLP的重要性,也示範了怎麼用NLTK對英文文本進行段詞跟統整。雖然NLTK提供多種不同語言的服務,當中也包含中文,但它終究是以...

2022-09-25 ‧ 由 fish_in_bed 分享
DAY 11

[Day 11] 時間都去哪了?資料前處理:聽懂進階人話的關鍵-詞性標註

  大家早安,不知知覺竟然已經完成鐵人賽的三分之一,真的是太快了。快到我的存稿都沒了從今天開始大概率每天都是最新鮮的文章了XDD 希望我可以順利完成。   回到...

2022-09-26 ‧ 由 fish_in_bed 分享
DAY 12

[Day 12] 時間都去哪了?資料前處理:抓住那個欠錢不還的傢伙-詞性標註之HMM的應用

  早安大家,昨天講解了詞性標註在NLP領域的重要性跟怎麼實作之後,今天要介紹詞性標註背後的隱藏式馬可夫模型(HMM)到底是運用什麼原理在運算。應該會是這個系列...

2022-09-27 ‧ 由 fish_in_bed 分享
DAY 13

[Day 13] 資料視覺化實作:把斷詞結果變成比文字雲更酷炫的文字狗跟文字小新

  早安各位,今天是還債日。之前在講斷詞斷句的時候有提到要出一個文字雲教學,但是因為時間安排的關係就被移到今天了。廢話不多說,大家應該都看過文字雲吧?就是下面那...

2022-09-28 ‧ 由 fish_in_bed 分享
DAY 14

[Day 14] 機器學習常用特徵:超級變變變 -BOW 詞袋模型

  諸位早安,我們終於結束漫長的資料前處理教學了。之前在講前處理的過程中,我一直提到電腦很笨,只認得數字的事情,大家應該還記得吧。問題來了,我們到底要怎麼把文字...

2022-09-29 ‧ 由 fish_in_bed 分享
DAY 15

[Day 15] 機器學習常用特徵:詞頻的皇親國戚-N-Gram & TF-IDF

  哈囉~雖然資料前處理的階段已經結束了,產出今天要介紹的各位皇親國戚應該還算是在前處理的範圍內,畢竟特徵萃取不太能算在模型訓練的一環,好吧反正他們就是地位尷尬...

2022-09-30 ‧ 由 fish_in_bed 分享
DAY 16

[Day 16] 監督式機器學習模型:他是騙砲仔還是你的真愛?-單純貝式分類器(Naive Bayes)

  哈囉大家,今天終於要正式進入模型訓練的階段了,真是可喜可賀,可喜可賀。雖然現在各種fancy的深度學習模型都非常強大,也能達到比機器學習還要好很多的成效,但...

2022-10-01 ‧ 由 fish_in_bed 分享
DAY 17

[Day 17] 監督式機器學習模型:傻白甜女主與她的包包-實作單純貝式分類器(Naive Bayes)與詞袋模型(Bag of Words)

  午安~昨天介紹了貝式分類器的原理之後,今天就要在python裡面實際操作一次看看,也順便把之前還沒講解怎麼實作的詞袋模型當成特徵一起示範。事不宜遲我們馬上開...

2022-10-02 ‧ 由 fish_in_bed 分享
DAY 18

[Day 18] 監督式機器學習模型:身世之謎與自我追尋-羅吉斯迴歸(Logistic Regression)

  大家早安,今天要帶大家認識第二個監督式機器學習的經典模型-羅吉斯迴歸(Logistic Regression)。雖然羅吉斯迴歸叫做羅吉斯迴歸,但他其實不是迴...

2022-10-03 ‧ 由 fish_in_bed 分享
DAY 19

[Day 19] 監督式機器學習模型:誰芭比Q了嗎?-實作羅吉斯迴歸(Logistic Regression) & TF-IDF

  大家午安,昨天介紹過羅吉斯迴歸的原理之後,今天要帶大家實作羅吉斯迴歸的模型,任務是要偵測推特上的貼文是否有憂鬱傾向。在NLP的領域裡面,我們把這種分析文本情...

2022-10-04 ‧ 由 fish_in_bed 分享