iT邦幫忙

tokenization相關文章
共有 2 則文章
鐵人賽 AI & Data DAY 7

技術 Day 7|斷詞(下):中文斷詞工具實作(jieba、CKIP Tagger、spaCy)

引言 昨天我們談到 Tokenization 跟 Segmentation 的差異,知道了拆文字有很多種方式:字、詞、子詞。在中文裡,因為是以字(Charact...

鐵人賽 AI & Data DAY 6

技術 Day 6|斷詞(上):Tokenization / Segmentation?

引言 接下來要來介紹的是 NLP 中,不可或缺的「斷詞」,也可以說「分詞」!但今天我們不做程式的實作,而是先釐清兩個常見,但可能會有點小混淆的概念:Tokeni...