機器學習應用練習 :: 2019 iT 邦幫忙鐵人賽

catxxx519 (catxxx519)

iT邦見習生 ‧ 點數 72

8674

累計瀏覽數

3人

在追蹤

站內簡訊追蹤

鐵人檔案

2019 iT 邦幫忙鐵人賽

回列表

自我挑戰組

機器學習應用練習系列

在學習了pandas及SQL之後，認為自己在資料分析的思維上還太淺了，希望藉由機器學習練習的範例進一步了解應用的情境，能夠更深入挖掘資料的價值

鐵人鍊成｜共 30 篇文章｜ 19 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 4893 瀏覽

DAY 1

自然語言與python

自然語言與python 面對超過海量的文字我們勢必得進行有效率搜尋與篩選才能迅速獲得需要的訊息使用nltk套件下載nltk內建文本 import nltk...

2018-10-16 ‧ 由 catxxx519 分享

0 Like 0 留言 3614 瀏覽

DAY 2

獲得文本和詞彙資源

獲得文本和詞彙資源在資料分析處理之前，一定要有好的資料。nltk之中建許多有語料庫，運用這些語料庫可大幅節省蒐集與整理文本資料的時間獲取語料庫 nltk之中...

2018-10-17 ‧ 由 catxxx519 分享

0 Like 0 留言 4034 瀏覽

DAY 3

Wordnet與字義關聯

WordNet WordNet是面向語義的英語詞典，類似與傳統辭典，但具有更豐富的結構。NLTK中包括英語WordNet，共有155,287個詞和117,659...

2018-10-18 ‧ 由 catxxx519 分享

0 Like 0 留言 2143 瀏覽

DAY 4

處理原始文本

處理原始文本從網絡和硬盤訪問文本NLTK語料庫集合中有古騰堡項目的一小部分樣例文本。然而，你可能對分析古騰堡項目的其它文本感興趣。你可以在http://ww...

2018-10-19 ‧ 由 catxxx519 分享

0 Like 0 留言 2258 瀏覽

DAY 5

正則表達式

正則表達式先導入re和nltk庫，並利用nltk做出單字列表做正則表達式的操作 >>> import re,nltk >>&gt...

2018-10-20 ‧ 由 catxxx519 分享

0 Like 0 留言 3357 瀏覽

DAY 6

分詞斷句

分詞斷句從資料夾中開啟美國獨立宣言文本 >>> usa = open('../txt/usa_en.txt',encoding='utf8'...

2018-10-21 ‧ 由 catxxx519 分享

1 Like 1 留言 5420 瀏覽

DAY 7

中文斷詞

中文斷詞使用jieba套件 jieba.cut()分詞功能，分為全模式與精確模式 >>> seg_list = jieba.cut(&q...

2018-10-22 ‧ 由 catxxx519 分享

0 Like 0 留言 10588 瀏覽

DAY 8

提取關鍵字

提取關鍵字在字串當中抓取單字的方法，依算法分為TF-IDF與TextRank兩種 1. TF-IDF jieba.analyse.extract_tags(s...

2018-10-23 ‧ 由 catxxx519 分享

0 Like 0 留言 3091 瀏覽

DAY 9

學習分類文本

學習分類文本還沒找到分析中文的教材，回來看英文QQ 本章的目的是要回答下列問題：我們怎樣才能識別語言數據中能明顯用於對其分類的特徵？我們怎樣才能構建語言...

2018-10-24 ‧ 由 catxxx519 分享

0 Like 0 留言 1753 瀏覽

DAY 10

文檔分類

文檔分類使用nltk庫中的電影評論語料庫，當中的文本已經被分類為neg和pos兩類，我們將文本的做成單字列表並附上類別的標籤定義為douments >&...

2018-10-25 ‧ 由 catxxx519 分享

catxxx519的鐵人檔案

catxxx519的收藏

catxxx519的追蹤

catxxx519的Like

catxxx519的紀錄

catxxx519的訂閱列表

鐵人檔案

機器學習應用練習 系列

標記使用者

機器學習應用練習系列