[Day14] 更高效抓取

2024 iThome 鐵人賽

DAY 2

自我挑戰組

30天認識爬蟲系列第 14 篇

16th鐵人賽

eyeyeyeye

2024-09-29 23:26:08

205 瀏覽

分享至

今天是第十四天，在爬蟲的過程中，獲取數據只是第一步，如何有效地儲存這些數據同樣重要。根據不同需求，我們可以選擇不同的數據儲存方式!``

儲存為CSV檔案
CSV（Comma-Separated Values）檔案是一種簡單且通用的數據儲存格式，適合儲存表格型數據。

import csv

data = [['標題', '內容'], ['文章1', '這是文章1的內容']]
with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerows(data)

儲存為JSON檔案
JSON（JavaScript Object Notation）是一種輕量級的數據交換格式，適合儲存結構化數據。

import json

data = {'articles': [{'title': '文章1', 'content': '這是文章1的內容'}]}
with open('output.json', 'w', encoding='utf-8') as jsonfile:
    json.dump(data, jsonfile, ensure_ascii=False, indent=4)

儲存到SQLite資料庫
SQLite是一個輕量級的資料庫選擇，適合儲存大量數據。

import sqlite3

conn = sqlite3.connect('articles.db')
c = conn.cursor()
c.execute('''CREATE TABLE IF NOT EXISTS articles (title TEXT, content TEXT)''')
c.execute("INSERT INTO articles VALUES ('文章1', '這是文章1的內容')")
conn.commit()
conn.close()

總結:
選擇適合的數據儲存方式依賴於你的需求。CSV和JSON適合小型項目，SQLite則適合大型數據集。靈活運用這些儲存方式，讓你的爬蟲工作變得更完整！