Python自習手札(5/30):嘿～拍森，幫我蒐集哆啦a夢相關資訊

2018 iT 邦幫忙鐵人賽

DAY 5

Data Technology

Python自習手札系列第 5 篇

2018鐵人賽

Doraemon

2017-12-20 00:37:34

2035 瀏覽

分享至

傳說中，人類的肩膀上住了一隻小天使和一隻小惡魔，小天使代表的是正向光明勤奮，小惡魔代表的是負面黑暗懶惰，每當人類在決擇時，往往會受到小天使與小惡魔左右......

小惡魔:嘿～拍森，幫我蒐集哆啦a夢相關資訊(抱
小天使:有沒有著麼懶啊= =
小惡魔:科技始終來自人性啊...(笑

所以...然後...小惡魔贏了(小天使完敗QQ)...就著樣挖坑給自已跳下去惹...

大數據時代已經開始一段時間了，有沒有發現在FB或其它社群路過的時侯，出現的廣告越來越接近自已想灑錢的種類了呢?!

以往使用工人蒐集資訊匯整的工作，都在搜尋、復製關鍵字、貼到小本本上面，重覆、重覆再重覆的，直到工人爬完網路上大部份的文，累積足夠的資料量再予以分析，篩選出自已需要的。

Wiki查到的資料:
網路爬蟲 （ 英語： web crawler ），也叫網路蜘蛛（ spider ），是一種用來自動瀏覽全球資訊網的網路機器人 。 其目的一般為編纂網路索引 。
網路 搜尋引擎等站點通過爬蟲軟體更新自身的網站內容 或其對其他網站的索引。 網路爬蟲可以將自己所存取的頁面儲存下來，以便搜尋引擎事後生成索引 供用戶搜尋。
爬蟲存取網站的過程會消耗目標系統資源。 不少網路系統並不默許爬蟲工作。 因此在存取大量頁面時，爬蟲需要考慮到規劃、負載，還需要講「禮貌」。 不願意被爬蟲存取、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免存取。 這個檔案可以要求機器人 只對網站的一部分進行索引，或完全不作處理。

網路爬蟲，實現自動化抓取網頁內容。

舉例來說，就是叫拍森幫我到網路上爬文，順便幫我建一份哆啦欣賞/必買清單，像著樣幫助心情愉悅的事情可以叫拍森做。

正經一點的事情，比方說弄一份網路新聞懶人包著樣，也可以叫拍森做。

但...小時侯老師都有教的，做人要有禮貌。

對於已經暗示加明示不歡迎爬爬的地方，好孩子要自覺一點退下就是了。

原想盡量的使用Linux原生的環境不裝其它的東東，但有些必要的套件(Selenium)還是需要安裝的...

後續需要實際跑跑、找時間實作的東東:
(1) linux套件:Selenium、BeautifulSoup
(2) 瀏覽器:chromium
(3) 編碼:UTF-8

<<<更換主題原文重發>>>
原文https://ithelp.ithome.com.tw/articles/10191313