iT邦幫忙

0

[網頁爬蟲]爬出來的big5文字內容怎麼存檔案

  • 分享至 

  • xImage

不好意思,我又來了QQ,繼上次爬的utf-8,這次我爬的是big5
txt好像不能存big5,然後我試過乾脆存word,可是存完是空的
https://ithelp.ithome.com.tw/upload/images/20200514/20126988WGRJ8pCpLG.png

然後想把big5轉成utf-8好像也不行,具體之前寫成這樣:
file=open("{}.txt".format(chb),"w",encoding="utf-8")

請問怎麼處理?謝謝大大們!

看更多先前的討論...收起先前的討論...
你的問題是沒存進去吧
file已經在for迴圈外面了
chb又在另一個迴圈裡面
dragonH iT邦超人 5 級 ‧ 2020-05-14 10:46:43 檢舉
你所謂的存 word

不會是 "file=open("{}.doc".format(chb),"w",encoding="utf-8")
lydia0231 iT邦新手 5 級 ‧ 2020-05-14 13:22:06 檢舉
@listennn08,確實是迴圈的問題,我把他放進去後可以寫入了,但有個新問題,他只寫入最後一章,前面的全部沒有,可是print(cnn)的時候又可以把整篇小說印出來
lydia0231 iT邦新手 5 級 ‧ 2020-05-14 13:22:48 檢舉
@dragonH 對啊......我是這樣存的XD......
lydia0231 iT邦新手 5 級 ‧ 2020-05-14 14:04:44 檢舉
啊~我找到不能全部寫入的原因了,我把"w"改成"a+"就可以了
先把 cnn 跟 chb 放到迴圈外定義 這樣你才能 get 到值
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0
通靈亡
iT邦高手 1 級 ‧ 2020-05-14 11:14:24
最佳解答
看更多先前的回應...收起先前的回應...
lydia0231 iT邦新手 5 級 ‧ 2020-05-14 12:43:10 檢舉

我用big5存的時候跑出這個,就以為是這個原因...
'big5' codec can't encode character '\xa0' in position 0: illegal multibyte sequence

編碼失敗應該不會是 big5 的關係
因為不是所有網址編碼都是 big5

big5hkscs
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs
ISO-8859-1
ISO-8859-1
ISO-8859-1
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs
not catch num: 9341670
ISO-8859-1
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs
通靈亡 iT邦高手 1 級 ‧ 2020-05-14 13:29:47 檢舉

lydia0231
你仔細讀完這篇,你就知道 listennn08 大大的意思了。
http://www.aobosir.com/blog/2016/11/26/python3-UnicodeEncodeError-gbk-codec-can't-encode-character-xa0/

网页源代码中的  的utf-8 编码是:\xc2 \xa0,通过后,转换为Unicode字符为:\xa0

lydia0231 iT邦新手 5 級 ‧ 2020-05-14 13:51:39 檢舉

@listennn08、ted59438 ,謝謝兩位大大,我好像有點理解編碼的轉換過程了

我要發表回答

立即登入回答