iT邦幫忙

2022 iThome 鐵人賽

DAY 14
0
自我挑戰組

AI :PyTorch系列 第 14

第十四天 文本序列化

  • 分享至 

  • xImage
  •  

文本序列化需要
1 對所有句子進行分詞
2 詞語存入字典,根據次數對詞語進行過濾,並統計次數
3 實現文本轉數字序列的方法
4 實現數字轉文本序列的方法

先建立字典

https://ithelp.ithome.com.tw/upload/images/20220928/20152487swnMD9Bncx.png

https://ithelp.ithome.com.tw/upload/images/20220928/20152487SBcX3cCzK5.png

再將一段句子放入字典中

https://ithelp.ithome.com.tw/upload/images/20220928/201524876qCoASNiqd.png

然後自定義一個方法進行統計數字出現過幾次並篩選哪些詞語可以被保存

https://ithelp.ithome.com.tw/upload/images/20220928/20152487J43nleaFBa.png

最後一步將句子序列化並將長短不一的句子進行填充

https://ithelp.ithome.com.tw/upload/images/20220928/20152487cbiWTSF2zj.png


上一篇
第十三天 繼續昨天文本情感分類
下一篇
第十五天 構建模型
系列文
AI :PyTorch30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言