iT邦幫忙

2023 iThome 鐵人賽

DAY 28
0
自我挑戰組

網路爬蟲系列 第 28

【Day28】網路爬蟲-輸出Scrapy爬取的資料

  • 分享至 

  • xImage
  •  

設定Scrapy專案的輸出

請使用Spyder開「Ch08\Ch8_5_1\Ch8_5_1\settings.py」的Python程式:
然後輸入下列程式碼來指定Scrapy專案輸出JSON格式的檔案:

#輸出JSON資料
FEED_EORMAT = "json"
FEED_URI = "pttnba.json"
FEED_EXPORT_ENCODING = "utf-8"

上述程式碼的FEED_FORMAT指定成輸出式json是JSON、csv是CSV和xml是XML,在FEED_URI指定輸出的檔案名稱,JSON 的副檔名是.json;CSV是.csv;XML是.xml,最後使用 FEED_EXPORT_ENCODING 指定使用的編碼是utf-8。
輸出爬取資料至JSON檔案
在設定 Scrapy 專案的輸出格式是JSON檔案和編碼是utf-8後,執行爬蟲程式 pttnba 就不需指定「-0」輸出參數

(base) C: \BigData \Ch08\Ch8_5_1>scrapy crawl pttnba

上述指的執行結果會在專案目録 Ch8_5_1新増名為 pttrnba,json 的 JSON檔案,當使用PSPad開啟JSON檔案,可以看到內容是我們從PPT爬取出的發文資料

Windows作業系統輸出CSV格式的問題

當執行Seraoy專案Ch8_5_2的quotes爬蟲程式輸出CSV檔案後,使用編輯器開啟CSV檔案,會發現輸出的每一列下方都多出一列額外的空白列。


上一篇
【Day27】網路爬蟲-建立Scrapy專案爬蟲程式
下一篇
【Day29】網路爬蟲-用Beautiful Soup實作案例
系列文
網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言