使用 jieba 擷取名詞(n),若有缺漏,可以加詞。如果時間/經費充裕,可使用NER自行訓練模型。
您好,感謝回覆,目前用段詞是確定的!另外可能研究如何把斷好的詞包成一包標籤
style840102
把斷詞詞庫存成 txt 檔,在執行python時再載入即可
暗夜裏 3 i
暗夜裡 3 i
阿亞拉 4 nr
阿寅勒 2 nr
艾怡良 10 nr
俺們 311 r
傲慢 315 a
凹面 19 n
哀憫 3 v
哀鳴 46 v
埃米 4 nrt
奧妙 328 nr
奧姆 2 nrt
奧秒 3 nr
奧秘 262 nr
奧美 20 nz
奧馬 10 ns
奧祕 262 nr
安命 2 nz
安曼 51 nr
安民 141 nr
安盟 80 ns
安眠 30 v
安謐 15 nr
愛慕 149 nr
愛民 107 n
中間那個數字是權重,愈大愈重~~
後面ns nr nz ......是詞性,jieba有對照表
檔名 dict.hant.small / large 為自動加載的檔名,你也可以取別的名字,自己用
jieba.load_userdict
載入個人分詞庫
我是用 python + jieba 做中文分詞,你可以預先把分詞後的權重表加進你的資料庫去做索引,以後查詢就直接連資料庫查某些關鍵字出現在那篇文章裡,而不是讓程式一個一個文字檔去做全文檢索,或,你可以考慮用付費的龍卷風全文檢索系統來達成
https://blog.kennycoder.io/2020/02/12/Python-%E7%9F%A5%E5%90%8DJieba%E4%B8%AD%E6%96%87%E6%96%B7%E8%A9%9E%E5%B7%A5%E5%85%B7%E6%95%99%E5%AD%B8/
研究一下資訊抽取(Information Extraction),或是其他自然語言處理的應用。