網路爬蟲(Web Scraping)也稱之為網路蜘蛛(Web Spider)或網路資料擷取(Web Data Extraction),是一種資料擷取技術,透過與web資源進行通訊,剖析文件所需資料,將資料整理成資訊,轉換成所需的資料格式。
我們可以手動進行複製貼上方式來收集和擷取資訊,但網路爬蟲可以自動幫助我們收集和擷取資訊。
爬蟲造訪網站的過程會消耗目標系統資源。因此在訪問大量頁面時,還需要考慮到規劃、負載,以及「禮貌」。 不願意被爬蟲訪問、被爬蟲主人知曉的公開站點可以使用robots.txt檔案的方法避免訪問。
網路爬蟲是透過程式自動從網站獲取資料的過程,而在瀏覽器輸入URL網址來瀏覽網頁,這項看起來十分簡單的操作,就是建立網路爬蟲的第一步。
其基本步驟如下:
今天的分享就先到這邊啦!謝謝大家~我們明天見!
網站參考資料:
https://zh.wikipedia.org/zh-tw/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2
https://medium.com/@bindaguo/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2%E6%B7%BA%E8%AB%87-afcae0694f13
https://www.webscrapingpro.tw/what-is-web-scraping/書籍參考資料:
文科生也可以輕鬆學習網路爬蟲