我原本想用爬蟲把IT邦邦忙網站中的文章"標題","標籤","詢問時間","瀏覽次數",還有"問題敘述"抓下來用csv檔儲存,禮拜一用的時候好好的,結果今天用就突然掛掉。
我看了一下error好像是有人文章裡的"問題敘述"格式不符合csv檔用的文字編碼big5
跑出的error長這樣 :
UnicodeEncodeError: 'big5' codec can't encode character '\u6ca1' in position 3244: illegal multibyte sequence
想請問這段error是什麼意思?要如何解決?
更:我自己這篇文章的東西有抓下來,到下面那篇文章的"問題敘述"就抓不下來了,應該是那篇文章的內容有影響到
contents = root2.find("div",class_="markdown__style").text #找出內文
這段是我用來抓"問題敘述"的程式
最近也碰到這樣的問題,讀、寫CSV檔編碼採big5或utf-8可能都會造成錯誤
解決方式編碼採 utf-8-sig
相關說明請參照鏈結
https://www.796t.com/article.php?id=14537