機器學習應用練習 :: 2019 iT 邦幫忙鐵人賽

catxxx519 (catxxx519)

iT邦見習生 ‧ 點數 72

10586

累計瀏覽數

3人

在追蹤

站內簡訊追蹤

鐵人檔案

2019 iT 邦幫忙鐵人賽

回列表

自我挑戰組

機器學習應用練習系列

在學習了pandas及SQL之後，認為自己在資料分析的思維上還太淺了，希望藉由機器學習練習的範例進一步了解應用的情境，能夠更深入挖掘資料的價值

鐵人鍊成｜共 30 篇文章｜ 19 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 1368 瀏覽

DAY 11

詞性標註

詞性標註使用Brown語料庫 (Brown語料庫是nltk中的內建語料庫，特色是所有文本依照主題分類) 定義一個fdist之後將brown語料庫中單字的末三...

2018-10-26 ‧ 由 catxxx519 分享

0 Like 0 留言 1315 瀏覽

DAY 12

探索上下文語境

探索上下文語境如果特徵提取僅僅看著目標詞，我們就沒法添加依賴詞出現的上下文語境特徵。然而上下文語境特徵往往提供關於正確標記的強大線索——例如，標註詞&quot...

2018-10-27 ‧ 由 catxxx519 分享

0 Like 0 留言 3406 瀏覽

DAY 13

句子分割

句子分割句子分割可以看作是一個標點符號的分類任務：每當我們遇到一個可能會結束一個句子的符號，如句號或問號，我們必須決定它是否終止了當前句子。第一步是獲得一些...

2018-10-28 ‧ 由 catxxx519 分享

0 Like 0 留言 3631 瀏覽

DAY 14

評估模型

評估模型為了決定一個分類模型是否準確地捕捉了模式，我們必須評估該模型。評估的結果對於決定模型是多麼值得信賴以及我們如何使用它是非常重要。評估也可以是一個有效的...

2018-10-29 ‧ 由 catxxx519 分享

0 Like 0 留言 1777 瀏覽

DAY 15

文檔分類練習

文檔分類練習 1. 使用本章討論過的電影評論文檔分類器，產生對分類器最有信息量的30個特徵的列表。你能解釋為什麼這些特定特徵具有信息量嗎？你能在它們中找到什麼驚...

2018-10-30 ‧ 由 catxxx519 分享

0 Like 0 留言 1812 瀏覽

DAY 16

練習分類文本

練習分類文本詞特徵在處理文本分類中是非常有用的，因為在一個文檔中出現的詞對於其語義內容是什麼具有強烈的指示作用。然而，很多詞很少出現，一些在文檔中的最有信息量...

2018-10-31 ‧ 由 catxxx519 分享

0 Like 0 留言 2345 瀏覽

DAY 17

練習蒐集資料

練習蒐集資料想練習分析中文文章，但現在還沒找到中文語料庫，先自己抓今天時間有點趕，code特別爛爬取中央社新聞使用requests，Beautiful...

2018-11-01 ‧ 由 catxxx519 分享

0 Like 0 留言 1679 瀏覽

DAY 18

中文文本分類練習

中文文本分類練習首先先把昨式爬蟲有問題的部分改好自己定義名稱常常忘記是什麼type或重複命名，搞了很多bug，改好後還是滿亂的，就直接貼結果上來 news=...

2018-11-02 ‧ 由 catxxx519 分享

0 Like 0 留言 5313 瀏覽

DAY 19

中文文本分類練習

中文文本分類練習昨天做到要篩選停止詞，今天在網上找了停止詞字庫，還有找到繁體中文用語的字庫 https://github.com/ldkrsi/jieba-z...

2018-11-03 ‧ 由 catxxx519 分享

1 Like 0 留言 4833 瀏覽

DAY 20

中文文本分類練習

中文文本分類練習今天先做了這幾件事，調整精確度把即時和專題兩個類別拿掉，發現問題不在這裡，因為精確度更低把爬蟲過濾的內文re拿掉，re功力不夠，迴...

2018-11-04 ‧ 由 catxxx519 分享

catxxx519的鐵人檔案

catxxx519的收藏

catxxx519的追蹤

catxxx519的Like

catxxx519的紀錄

catxxx519的訂閱列表

鐵人檔案

機器學習應用練習 系列

標記使用者

機器學習應用練習系列