iT邦幫忙

2025 iThome 鐵人賽

DAY 14
0

最近在準備碩論,需要大量交通事故相關的新聞資料。
原本的計劃是自己寫 Python 腳本,但寫到一半突然在想 ——「叫 GPT 幫我開網頁搜尋會不會比較快?」

GPT 已經支援即時搜尋功能,如果能直接丟一句話,讓它幫我找到最新的新聞,說不定比我自己寫程式還快。
所以就藉這次實際測試看看,哪個比較有優勢。


GPT 抓資料

第一次嘗試時,我直接對 GPT 下指令:
「幫我找跟XXXXXX相關交通事故的新聞,整理成表格,欄位包含:標題、日期、來源、城市、摘要。」

GPT 很快就回給我 5 則新聞,甚至還附上了簡短摘要。當下我覺得:「真的超級方便」

但接下來遇到幾個問題:

  • 有些新聞只能抓到標題,內文被 paywall 擋住了。
  • 不同次的輸出格式不一致,有時候缺了「日期」或「城市」。
  • 想要抓更多(例如一次 100 則以上)就很慢,而且容易重複。

所以 GPT 大約適合用來「先試試看」,或是份量不大的時候,如果要蒐集一份大量的資料,可能要多很多耐心。


Python 腳本

後來我還是回到 Python,寫了一個小爬蟲。
只要設好關鍵字(例如「台中+車禍」「高齡駕駛+事故」),程式就能一口氣抓下幾百篇新聞,再整理成 CSV。

這樣的好處是:

  • 欄位完全一致,方便後續丟進資料庫分析。
  • 可以持續跑,隔幾天再執行就能補上最新資料。
  • 可以針對不同新聞網站調整策略,例如有些用 RSS,有些要用 Selenium 模擬點擊。

但缺點也很明顯:

  • 第一次寫很花時間,尤其是網站反爬機制一堆,還要處理亂碼。
  • 寫起來跟叫 GPT 搜尋可能時間沒有省多少。

GPT vs Python:對照表

面向 GPT 抓資料 Python 腳本
上手難度 超低,只要會下指令 高,需要程式基礎
即時性 強,能直接找到最新新聞 弱,要等程式跑完
規模 小量方便 大量高效
格式一致性 不穩定,需要手動清理 穩定,可自訂格式
維護成本 幾乎零 高,網站改版要重寫
擴展性 受限於 GPT 回傳篇數 可批量抓取,上千不是問題
風險 可能遇到 paywall / 錯漏 容易被網站封鎖,需要處理反爬

在研究流程中的搭配

我的結論是:兩者不是互斥,而是可以互補。

  • 先用 GPT 搜尋 → 測試關鍵字、快速找到新聞來源,確認「這個主題夠不夠」。
  • 再用 Python 腳本 → 批量抓取、整理成乾淨的資料表,方便後續使用。

舉例:
我先請 GPT 幫我找「XX車禍熱點」,它會丟給我幾則新聞,甚至有些提到「某某路段事故頻繁」。
這時我就知道可以把「某某路段」當成我的爬蟲關鍵字,讓 Python 自動去抓更多相關新聞。

這樣一來,GPT 先「偵查」,而 Python 則是「主力」,可以避免掉python跑很久,但卻因為關鍵字不對而抓不太到資料。


小結

  • GPT 很適合快速探索,低成本測試新聞來源。
  • Python 則是建立大規模資料庫的必備工具。
  • 真正高效的方式,是 AI + 程式雙管齊下:先用 GPT 篩選題材,再用 Python 自動化收集。

這樣做不僅能節省時間,還能確保資料品質,對碩論研究來說,等於把「資料蒐集」這個痛點拆解成了兩個小步驟,更輕鬆也更穩定。


上一篇
[Day13] 實際安裝與啟動 Zen MCP Server
下一篇
[Day15] 實測Zen MCP vs 無 Zen差異比較
系列文
生成式 AI 輔助程式設計:探索 Vibe Coding、Claude 與 Cursor 的新世代開發體驗21
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言