最近在準備碩論,需要大量交通事故相關的新聞資料。
原本的計劃是自己寫 Python 腳本,但寫到一半突然在想 ——「叫 GPT 幫我開網頁搜尋會不會比較快?」
GPT 已經支援即時搜尋功能,如果能直接丟一句話,讓它幫我找到最新的新聞,說不定比我自己寫程式還快。
所以就藉這次實際測試看看,哪個比較有優勢。
第一次嘗試時,我直接對 GPT 下指令:
「幫我找跟XXXXXX相關交通事故的新聞,整理成表格,欄位包含:標題、日期、來源、城市、摘要。」
GPT 很快就回給我 5 則新聞,甚至還附上了簡短摘要。當下我覺得:「真的超級方便」
但接下來遇到幾個問題:
所以 GPT 大約適合用來「先試試看」,或是份量不大的時候,如果要蒐集一份大量的資料,可能要多很多耐心。
後來我還是回到 Python,寫了一個小爬蟲。
只要設好關鍵字(例如「台中+車禍」「高齡駕駛+事故」),程式就能一口氣抓下幾百篇新聞,再整理成 CSV。
這樣的好處是:
但缺點也很明顯:
面向 | GPT 抓資料 | Python 腳本 |
---|---|---|
上手難度 | 超低,只要會下指令 | 高,需要程式基礎 |
即時性 | 強,能直接找到最新新聞 | 弱,要等程式跑完 |
規模 | 小量方便 | 大量高效 |
格式一致性 | 不穩定,需要手動清理 | 穩定,可自訂格式 |
維護成本 | 幾乎零 | 高,網站改版要重寫 |
擴展性 | 受限於 GPT 回傳篇數 | 可批量抓取,上千不是問題 |
風險 | 可能遇到 paywall / 錯漏 | 容易被網站封鎖,需要處理反爬 |
我的結論是:兩者不是互斥,而是可以互補。
舉例:
我先請 GPT 幫我找「XX車禍熱點」,它會丟給我幾則新聞,甚至有些提到「某某路段事故頻繁」。
這時我就知道可以把「某某路段」當成我的爬蟲關鍵字,讓 Python 自動去抓更多相關新聞。
這樣一來,GPT 先「偵查」,而 Python 則是「主力」,可以避免掉python跑很久,但卻因為關鍵字不對而抓不太到資料。
這樣做不僅能節省時間,還能確保資料品質,對碩論研究來說,等於把「資料蒐集」這個痛點拆解成了兩個小步驟,更輕鬆也更穩定。