請使用Spyder開「Ch08\Ch8_5_1\Ch8_5_1\settings.py」的Python程式:
然後輸入下列程式碼來指定Scrapy專案輸出JSON格式的檔案:
#輸出JSON資料
FEED_EORMAT = "json"
FEED_URI = "pttnba.json"
FEED_EXPORT_ENCODING = "utf-8"
上述程式碼的FEED_FORMAT指定成輸出式json是JSON、csv是CSV和xml是XML,在FEED_URI指定輸出的檔案名稱,JSON 的副檔名是.json;CSV是.csv;XML是.xml,最後使用 FEED_EXPORT_ENCODING 指定使用的編碼是utf-8。
輸出爬取資料至JSON檔案
在設定 Scrapy 專案的輸出格式是JSON檔案和編碼是utf-8後,執行爬蟲程式 pttnba 就不需指定「-0」輸出參數
(base) C: \BigData \Ch08\Ch8_5_1>scrapy crawl pttnba
上述指的執行結果會在專案目録 Ch8_5_1新増名為 pttrnba,json 的 JSON檔案,當使用PSPad開啟JSON檔案,可以看到內容是我們從PPT爬取出的發文資料
當執行Seraoy專案Ch8_5_2的quotes爬蟲程式輸出CSV檔案後,使用編輯器開啟CSV檔案,會發現輸出的每一列下方都多出一列額外的空白列。