iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
自我挑戰組

機器學習應用練習 系列

在學習了pandas及SQL之後,認為自己在資料分析的思維上還太淺了,希望藉由機器學習練習的範例進一步了解應用的情境,能夠更深入挖掘資料的價值

鐵人鍊成 | 共 30 篇文章 | 19 人訂閱 訂閱系列文 RSS系列文
DAY 11

詞性標註

詞性標註 使用Brown語料庫 (Brown語料庫是nltk中的內建語料庫,特色是所有文本依照主題分類) 定義一個fdist之後將brown語料庫中單字的末三...

2018-10-26 ‧ 由 catxxx519 分享
DAY 12

探索上下文語境

探索上下文語境 如果特徵提取僅僅看著目標詞,我們就沒法添加依賴詞出現的上下文語境特徵。然而上下文語境特徵往往提供關於正確標記的強大線索——例如,標註詞&quot...

2018-10-27 ‧ 由 catxxx519 分享
DAY 13

句子分割

句子分割 句子分割可以看作是一個標點符號的分類任務:每當我們遇到一個可能會結束一個句子的符號,如句號或問號,我們必須決定它是否終止了當前句子。 第一步是獲得一些...

2018-10-28 ‧ 由 catxxx519 分享
DAY 14

評估模型

評估模型 為了決定一個分類模型是否準確地捕捉了模式,我們必須評估該模型。評估的結果對於決定模型是多麼值得信賴以及我們如何使用它是非常重要。評估也可以是一個有效的...

2018-10-29 ‧ 由 catxxx519 分享
DAY 15

文檔分類練習

文檔分類練習 1. 使用本章討論過的電影評論文檔分類器,產生對分類器最有信息量的30個特徵的列表。你能解釋為什麼這些特定特徵具有信息量嗎?你能在它們中找到什麼驚...

2018-10-30 ‧ 由 catxxx519 分享
DAY 16

練習分類文本

練習分類文本 詞特徵在處理文本分類中是非常有用的,因為在一個文檔中出現的詞對於其語義內容是什麼具有強烈的指示作用。然而,很多詞很少出現,一些在文檔中的最有信息量...

2018-10-31 ‧ 由 catxxx519 分享
DAY 17

練習蒐集資料

練習蒐集資料 想練習分析中文文章,但現在還沒找到中文語料庫,先自己抓今天時間有點趕,code特別爛 爬取中央社新聞 使用requests,Beautiful...

2018-11-01 ‧ 由 catxxx519 分享
DAY 18

中文文本分類練習

中文文本分類練習 首先先把昨式爬蟲有問題的部分改好 自己定義名稱常常忘記是什麼type或重複命名,搞了很多bug,改好後還是滿亂的,就直接貼結果上來 news=...

2018-11-02 ‧ 由 catxxx519 分享
DAY 19

中文文本分類練習

中文文本分類練習 昨天做到要篩選停止詞,今天在網上找了停止詞字庫,還有找到繁體中文用語的字庫 https://github.com/ldkrsi/jieba-z...

2018-11-03 ‧ 由 catxxx519 分享
DAY 20

中文文本分類練習

中文文本分類練習 今天先做了這幾件事,調整精確度 把即時和專題兩個類別拿掉,發現問題不在這裡,因為精確度更低 把爬蟲過濾的內文re拿掉,re功力不夠,迴...

2018-11-04 ‧ 由 catxxx519 分享