iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
自我挑戰組

機器學習應用練習 系列

在學習了pandas及SQL之後,認為自己在資料分析的思維上還太淺了,希望藉由機器學習練習的範例進一步了解應用的情境,能夠更深入挖掘資料的價值

鐵人鍊成 | 共 30 篇文章 | 19 人訂閱 訂閱系列文 RSS系列文
DAY 1

自然語言與python

自然語言與python 面對超過海量的文字我們勢必得進行有效率搜尋與篩選才能迅速獲得需要的訊息 使用nltk套件 下載nltk內建文本 import nltk...

2018-10-16 ‧ 由 catxxx519 分享
DAY 2

獲得文本和詞彙資源

獲得文本和詞彙資源 在資料分析處理之前,一定要有好的資料。nltk之中建許多有語料庫,運用這些語料庫可大幅節省蒐集與整理文本資料的時間 獲取語料庫 nltk之中...

2018-10-17 ‧ 由 catxxx519 分享
DAY 3

Wordnet與字義關聯

WordNet WordNet是面向語義的英語詞典,類似與傳統辭典,但具有更豐富的結構。NLTK中包括英語WordNet,共有155,287個詞和117,659...

2018-10-18 ‧ 由 catxxx519 分享
DAY 4

處理原始文本

處理原始文本 從網絡和硬盤訪問文本NLTK語料庫集合中有古騰堡項目的一小部分樣例文本。然而,你可能對分析古騰堡項目的其它文本感興趣。你可以在http://ww...

2018-10-19 ‧ 由 catxxx519 分享
DAY 5

正則表達式

正則表達式 先導入re和nltk庫,並利用nltk做出單字列表做正則表達式的操作 >>> import re,nltk >>&gt...

2018-10-20 ‧ 由 catxxx519 分享
DAY 6

分詞斷句

分詞斷句 從資料夾中開啟美國獨立宣言文本 >>> usa = open('../txt/usa_en.txt',encoding='utf8'...

2018-10-21 ‧ 由 catxxx519 分享
DAY 7

中文斷詞

中文斷詞 使用jieba套件 jieba.cut()分詞功能,分為全模式與精確模式 >>> seg_list = jieba.cut(&q...

2018-10-22 ‧ 由 catxxx519 分享
DAY 8

提取關鍵字

提取關鍵字 在字串當中抓取單字的方法,依算法分為TF-IDF與TextRank兩種 1. TF-IDF jieba.analyse.extract_tags(s...

2018-10-23 ‧ 由 catxxx519 分享
DAY 9

學習分類文本

學習分類文本 還沒找到分析中文的教材,回來看英文QQ 本章的目的是要回答下列問題: 我們怎樣才能識別語言數據中能明顯用於對其分類的特徵? 我們怎樣才能構建語言...

2018-10-24 ‧ 由 catxxx519 分享
DAY 10

文檔分類

文檔分類 使用nltk庫中的電影評論語料庫,當中的文本已經被分類為neg和pos兩類,我們將文本的做成單字列表並附上類別的標籤定義為douments >&...

2018-10-25 ‧ 由 catxxx519 分享