引言 昨天我們談到 Tokenization 跟 Segmentation 的差異,知道了拆文字有很多種方式:字、詞、子詞。在中文裡,因為是以字(Charact...
引言 接下來要來介紹的是 NLP 中,不可或缺的「斷詞」,也可以說「分詞」!但今天我們不做程式的實作,而是先釐清兩個常見,但可能會有點小混淆的概念:Tokeni...
IT邦幫忙