【Day28】網路爬蟲-輸出Scrapy爬取的資料

15th鐵人賽

2023-10-13 23:17:29

731 瀏覽

分享至

設定Scrapy專案的輸出

請使用Spyder開「Ch08\Ch8_5_1\Ch8_5_1\settings.py」的Python程式：
然後輸入下列程式碼來指定Scrapy專案輸出JSON格式的檔案：

#輸出JSON資料
FEED_EORMAT = "json"
FEED_URI = "pttnba.json"
FEED_EXPORT_ENCODING = "utf-8"

上述程式碼的FEED_FORMAT指定成輸出式json是JSON、csv是CSV和xml是XML，在FEED_URI指定輸出的檔案名稱，JSON 的副檔名是.json；CSV是.csv；XML是.xml，最後使用 FEED_EXPORT_ENCODING 指定使用的編碼是utf-8。
輸出爬取資料至JSON檔案
在設定 Scrapy 專案的輸出格式是JSON檔案和編碼是utf-8後，執行爬蟲程式 pttnba 就不需指定「-0」輸出參數

(base) C: \BigData \Ch08\Ch8_5_1>scrapy crawl pttnba

上述指的執行結果會在專案目録 Ch8_5_1新増名為 pttrnba,json 的 JSON檔案，當使用PSPad開啟JSON檔案，可以看到內容是我們從PPT爬取出的發文資料

Windows作業系統輸出CSV格式的問題

當執行Seraoy專案Ch8_5_2的quotes爬蟲程式輸出CSV檔案後，使用編輯器開啟CSV檔案，會發現輸出的每一列下方都多出一列額外的空白列。

【Day27】網路爬蟲-建立Scrapy專案爬蟲程式

【Day29】網路爬蟲-用Beautiful Soup實作案例

系列文

網路爬蟲共 30 篇

RSS系列文訂閱系列文

4 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙

網路爬蟲系列 第 28 篇

【Day28】網路爬蟲-輸出Scrapy爬取的資料

設定Scrapy專案的輸出

Windows作業系統輸出CSV格式的問題

尚未有邦友留言

標記使用者

網路爬蟲系列第 28 篇