iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 5
0
Data Technology

Python自習手札系列 第 5

Python自習手札(5/30):嘿~拍森,幫我蒐集哆啦a夢相關資訊

傳說中,人類的肩膀上住了一隻小天使和一隻小惡魔,小天使代表的是正向光明勤奮,小惡魔代表的是負面黑暗懶惰,每當人類在決擇時,往往會受到小天使與小惡魔左右......

小惡魔:嘿~拍森,幫我蒐集哆啦a夢相關資訊(抱
小天使:有沒有著麼懶啊= =
小惡魔:科技始終來自人性啊...(笑

所以...然後...小惡魔贏了(小天使完敗QQ)...就著樣挖坑給自已跳下去惹...


大數據時代已經開始一段時間了,有沒有發現在FB或其它社群路過的時侯,出現的廣告越來越接近自已想灑錢的種類了呢?!

以往使用工人蒐集資訊匯整的工作,都在搜尋、復製關鍵字、貼到小本本上面,重覆、重覆再重覆的,直到工人爬完網路上大部份的文,累積足夠的資料量再予以分析,篩選出自已需要的。

Wiki查到的資料:
網路爬蟲 ( 英語: web crawler ),也叫網路蜘蛛( spider ),是一種用來自動瀏覽全球資訊網的網路機器人 。 其目的一般為編纂網路索引 。
網路 搜尋引擎等站點通過爬蟲軟體更新自身的網站內容 或其對其他網站的索引。 網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引 供用戶搜尋。
爬蟲存取網站的過程會消耗目標系統資源。 不少網路系統並不默許爬蟲工作。 因此在存取大量頁面時,爬蟲需要考慮到規劃、負載,還需要講「禮貌」。 不願意被爬蟲存取、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免存取。 這個檔案可以要求機器人 只對網站的一部分進行索引,或完全不作處理。

網路爬蟲,實現自動化抓取網頁內容。

舉例來說,就是叫拍森幫我到網路上爬文,順便幫我建一份哆啦欣賞/必買清單,像著樣幫助心情愉悅的事情可以叫拍森做。

正經一點的事情,比方說弄一份網路新聞懶人包著樣,也可以叫拍森做。

但...小時侯老師都有教的,做人要有禮貌。

對於已經暗示加明示不歡迎爬爬的地方,好孩子要自覺一點退下就是了。

原想盡量的使用Linux原生的環境不裝其它的東東,但有些必要的套件(Selenium)還是需要安裝的...


後續需要實際跑跑、找時間實作的東東:
(1) linux套件:Selenium、BeautifulSoup
(2) 瀏覽器:chromium
(3) 編碼:UTF-8

<<<更換主題原文重發>>>
原文https://ithelp.ithome.com.tw/articles/10191313


上一篇
Python自習手札(4/30):親切的繁體中文變亂碼
下一篇
Python自習手札(6/30):Selenium套件安裝
系列文
Python自習手札31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言