iT邦幫忙

0

爬蟲問題

  • 分享至 

  • xImage

我原本想用爬蟲把IT邦邦忙網站中的文章"標題","標籤","詢問時間","瀏覽次數",還有"問題敘述"抓下來用csv檔儲存,禮拜一用的時候好好的,結果今天用就突然掛掉。

我看了一下error好像是有人文章裡的"問題敘述"格式不符合csv檔用的文字編碼big5

跑出的error長這樣 :
UnicodeEncodeError: 'big5' codec can't encode character '\u6ca1' in position 3244: illegal multibyte sequence

想請問這段error是什麼意思?要如何解決?

更:我自己這篇文章的東西有抓下來,到下面那篇文章的"問題敘述"就抓不下來了,應該是那篇文章的內容有影響到

contents = root2.find("div",class_="markdown__style").text #找出內文

這段是我用來抓"問題敘述"的程式

https://ithelp.ithome.com.tw/upload/images/20221102/20137686Av69ZDSaIV.jpg

看更多先前的討論...收起先前的討論...
obarisk iT邦研究生 1 級 ‧ 2022-11-03 09:25:28 檢舉
實際上是你沒有辦法把這個字存成 big5。
如果你只能存 big5,那遇到無法存成 big5 的字,只能把原始字碼存下去了。(utf8應該)
shiaobin iT邦新手 4 級 ‧ 2022-11-03 15:12:07 檢舉
改用UTF-8編碼吧。是有什麼原因讓你必須要用Big5編碼嗎?
froce iT邦大師 1 級 ‧ 2022-11-03 15:23:56 檢舉
> 是有什麼原因讓你必須要用Big5編碼嗎?
舊版excel很爛...2016我記得沒辦法讀非big5的csv,以前版本的讀取選項又被拿掉。
因為我想要存成csv檔(作業要求的),不然如果存成utf8再用excel打開的話會變成亂碼
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 個回答

0
一級屠豬士
iT邦大師 1 級 ‧ 2022-11-03 05:35:28

這篇我有看到,現在好像懂了,是因為"沒"這個簡體字big5沒辦法encode對吧?

0
ky1000
iT邦新手 3 級 ‧ 2022-11-24 11:36:56

最近也碰到這樣的問題,讀、寫CSV檔編碼採big5或utf-8可能都會造成錯誤
解決方式編碼採 utf-8-sig
相關說明請參照鏈結
https://www.796t.com/article.php?id=14537

網站點了沒東西

ky1000 iT邦新手 3 級 ‧ 2023-01-03 17:46:44 檢舉

網址我開得出來唷....你要不要換個方式連線
https://ithelp.ithome.com.tw/upload/images/20230103/20109623C15HWsUkze.jpg

當下點不進去,現在可以了
感謝你

我要發表回答

立即登入回答