iT邦幫忙

0

[網頁爬蟲]爬出來的個別文字內容被替換

  • 分享至 

  • xImage

練習爬蟲爬小說遇到這種情況,原本的文字內容會不規則被換成亂碼
https://ithelp.ithome.com.tw/upload/images/20200513/201269884XJcazERTJ.pnghttps://ithelp.ithome.com.tw/upload/images/20200513/20126988HwYvI5vKhZ.png
https://ithelp.ithome.com.tw/upload/images/20200513/201269886aZ3XZZ0AU.png

想問怎麼解決呢,感謝大大!

jeles51 iT邦研究生 3 級 ‧ 2020-05-13 08:43:17 檢舉
存成檔案時,試試存成UTF8格式.
第一 那是有規則的不是不規則的
第二 那是 unicode 解碼後的 utf-8 碼不是亂碼
第三 這裡有對照表你可以自己轉 https://utf8-chartable.de/unicode-utf8-table.pl?start=20096&number=1024
lydia0231 iT邦新手 5 級 ‧ 2020-05-13 10:10:11 檢舉
謝謝樓上們!
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

1
通靈亡
iT邦高手 1 級 ‧ 2020-05-13 08:54:48
最佳解答

URL escaped characters decode:

from urllib.parse import unquote

#將url encode 轉換成文字,可以混正常文字
text = unquote('些%e5%a8%87里')

#輸出轉換後的文字
print(text)
lydia0231 iT邦新手 5 級 ‧ 2020-05-13 09:57:27 檢舉

謝謝!用這個方法可以了!

我要發表回答

立即登入回答