傳說中,人類的肩膀上住了一隻小天使和一隻小惡魔,小天使代表的是正向光明勤奮,小惡魔代表的是負面黑暗懶惰,每當人類在決擇時,往往會受到小天使與小惡魔左右......
小惡魔:嘿~拍森,幫我蒐集哆啦a夢相關資訊(抱
小天使:有沒有著麼懶啊= =
小惡魔:科技始終來自人性啊...(笑
所以...然後...小惡魔贏了(小天使完敗QQ)...就著樣挖坑給自已跳下去惹...
大數據時代已經開始一段時間了,有沒有發現在FB或其它社群路過的時侯,出現的廣告越來越接近自已想灑錢的種類了呢?!
以往使用工人蒐集資訊匯整的工作,都在搜尋、復製關鍵字、貼到小本本上面,重覆、重覆再重覆的,直到工人爬完網路上大部份的文,累積足夠的資料量再予以分析,篩選出自已需要的。
Wiki查到的資料:
網路爬蟲 ( 英語: web crawler ),也叫網路蜘蛛( spider ),是一種用來自動瀏覽全球資訊網的網路機器人 。 其目的一般為編纂網路索引 。
網路 搜尋引擎等站點通過爬蟲軟體更新自身的網站內容 或其對其他網站的索引。 網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引 供用戶搜尋。
爬蟲存取網站的過程會消耗目標系統資源。 不少網路系統並不默許爬蟲工作。 因此在存取大量頁面時,爬蟲需要考慮到規劃、負載,還需要講「禮貌」。 不願意被爬蟲存取、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免存取。 這個檔案可以要求機器人 只對網站的一部分進行索引,或完全不作處理。
網路爬蟲,實現自動化抓取網頁內容。
舉例來說,就是叫拍森幫我到網路上爬文,順便幫我建一份哆啦欣賞/必買清單,像著樣幫助心情愉悅的事情可以叫拍森做。
正經一點的事情,比方說弄一份網路新聞懶人包著樣,也可以叫拍森做。
但...小時侯老師都有教的,做人要有禮貌。
對於已經暗示加明示不歡迎爬爬的地方,好孩子要自覺一點退下就是了。
原想盡量的使用Linux原生的環境不裝其它的東東,但有些必要的套件(Selenium)還是需要安裝的...
後續需要實際跑跑、找時間實作的東東:
(1) linux套件:Selenium
(2) 瀏覽器:chromium
(3) 編碼:UTF-8