[網頁爬蟲]爬出來的big5文字內容怎麼存檔案

網頁爬蟲 big5 存檔案

lydia0231 2020-05-14 10:16:55 ‧ 7178 瀏覽

分享至

不好意思，我又來了QQ，繼上次爬的utf-8，這次我爬的是big5
txt好像不能存big5，然後我試過乾脆存word，可是存完是空的

然後想把big5轉成utf-8好像也不行，具體之前寫成這樣:
file=open("{}.txt".format(chb),"w",encoding="utf-8")

請問怎麼處理?謝謝大大們!

看更多先前的討論...收起先前的討論...

listennn08 iT邦高手 5 級 ‧ 2020-05-14 10:23:14 檢舉

你的問題是沒存進去吧
file已經在for迴圈外面了
chb又在另一個迴圈裡面

dragonH iT邦超人 5 級 ‧ 2020-05-14 10:46:43 檢舉

你所謂的存 word

不會是 "file=open("{}.doc".format(chb),"w",encoding="utf-8")

lydia0231 iT邦新手 5 級 ‧ 2020-05-14 13:22:06 檢舉

@listennn08，確實是迴圈的問題，我把他放進去後可以寫入了，但有個新問題，他只寫入最後一章，前面的全部沒有，可是print(cnn)的時候又可以把整篇小說印出來

lydia0231 iT邦新手 5 級 ‧ 2020-05-14 13:22:48 檢舉

@dragonH 對啊......我是這樣存的XD......

lydia0231 iT邦新手 5 級 ‧ 2020-05-14 14:04:44 檢舉

啊~我找到不能全部寫入的原因了，我把"w"改成"a+"就可以了

listennn08 iT邦高手 5 級 ‧ 2020-05-14 14:38:09 檢舉

先把 cnn 跟 chb 放到迴圈外定義這樣你才能 get 到值

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 個回答

通靈亡

iT邦高手 1 級 ‧ 2020-05-14 11:14:24

最佳解答

txt好像不能存big5

這句話你是聽誰說的？
https://openhome.cc/Gossip/Encoding/Python.html
https://officeguide.cc/python-big5-utf8-file-encoding-convertion-tutorial/

回應 4
分享
檢舉

看更多先前的回應...收起先前的回應...

lydia0231 iT邦新手 5 級 ‧ 2020-05-14 12:43:10 檢舉

我用big5存的時候跑出這個，就以為是這個原因...
'big5' codec can't encode character '\xa0' in position 0: illegal multibyte sequence

listennn08 iT邦高手 5 級 ‧ 2020-05-14 12:52:12 檢舉

編碼失敗應該不會是 big5 的關係
因為不是所有網址編碼都是 big5

big5hkscs
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs
ISO-8859-1
ISO-8859-1
ISO-8859-1
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs
not catch num: 9341670
ISO-8859-1
big5hkscs
big5hkscs
ISO-8859-1
big5hkscs
big5hkscs
big5hkscs