iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
自我挑戰組

30天認識爬蟲系列 第 14

[Day14] 更高效抓取

  • 分享至 

  • xImage
  •  

今天是第十四天,在爬蟲的過程中,獲取數據只是第一步,如何有效地儲存這些數據同樣重要。根據不同需求,我們可以選擇不同的數據儲存方式!``

  1. 儲存為CSV檔案
    CSV(Comma-Separated Values)檔案是一種簡單且通用的數據儲存格式,適合儲存表格型數據。
import csv

data = [['標題', '內容'], ['文章1', '這是文章1的內容']]
with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerows(data)

  1. 儲存為JSON檔案
    JSON(JavaScript Object Notation)是一種輕量級的數據交換格式,適合儲存結構化數據。
import json

data = {'articles': [{'title': '文章1', 'content': '這是文章1的內容'}]}
with open('output.json', 'w', encoding='utf-8') as jsonfile:
    json.dump(data, jsonfile, ensure_ascii=False, indent=4)

  1. 儲存到SQLite資料庫
    SQLite是一個輕量級的資料庫選擇,適合儲存大量數據。
import sqlite3

conn = sqlite3.connect('articles.db')
c = conn.cursor()
c.execute('''CREATE TABLE IF NOT EXISTS articles (title TEXT, content TEXT)''')
c.execute("INSERT INTO articles VALUES ('文章1', '這是文章1的內容')")
conn.commit()
conn.close()

總結:
選擇適合的數據儲存方式依賴於你的需求。CSV和JSON適合小型項目,SQLite則適合大型數據集。靈活運用這些儲存方式,讓你的爬蟲工作變得更完整!


上一篇
[Day13] 抓取JavaScript渲染內容
下一篇
[Day15] 數據清洗與結構化
系列文
30天認識爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言