特徵調整 原本今天想開始練習情感分析,讀了很多相關文章和snownlp庫 覺得情感分析原理好像和文章分類方法類似,首先要有標註正面和負面的語料庫,才可以開始進行...
練習提高精確度 今天從資料整理和特徵提取優化嘗試提高精確度 首先是資料整理,新聞網站的原文大部分都長這樣 (中央社北京6日綜合外電報導)微軟創辦人比爾.蓋茲今天...
從文本提取信息 新聞分類到85%精確度就上不去了,再繼續探索nltk 信息提取信息有很多種形狀和大小。如果我們的數據是表格形式,那麼回答這些問題就很簡單了。...
標註IOB詞塊標記 昨天定義了UnigramChunker類,使用一元標註器給句子加詞塊標記。這個類的大部分代碼只是用來在NLTK的ChunkParserI接口...
劃分詞塊 訓練基於分類器的詞塊劃分器 昨天透過train_sents訓練了標註器為詞性標記標註IOB詞塊標記,已經標記了93.3%的詞塊,再透過parse回...
分析句子結構 本章的目的是要回答下列問題: 我們如何使用形式化語法來描述無限的句子集合的結構? 我們如何使用句法樹來表示句子結構? 語法分析器如何分析一個句子...
依存關係和依存文法 短語結構文法是關於詞和詞序列如何結合起來形成句子成分的。一個獨特的和互補的方式,依存語法,集中關注的是詞與其他詞之間的關係。依存關係是一個中...
標註中文詞性 nltk.corpus內有sinica_treebank繁體中文的語料庫,用法和corpus內其他文章滿相似的 print(nltk.corpus...
中文情感分析練習 這幾天找到中文的情感字典,與之前不一樣的是這是字典而不是語料庫,所以想說能練習看看 先把字典分別做成list with open('../di...