iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 24
0
自我挑戰組

資料蒐集與分散式運算 30 天系列 第 24

[Day 24] 爬蟲回顧

歡迎來到第 24 天,今天是爬蟲篇章的最後一篇,主要在提及爬蟲篇章沒有講到的部分以及寫爬蟲的心得。

沒有講到的部分

還記得在爬蟲篇章一開始時,有提到爬蟲可以大略區分成「靜態爬蟲」、「動態爬蟲、「框架爬蟲」三個項目,框架爬蟲的部分是這次鐵人賽中沒有提到的部分。在框架爬蟲中,筆者只有接觸過 Scrapy,在過去的幾次嘗試 Scrapy 的過程中總是抱持著崇拜的心情在感謝開源社群大大們的貢獻,他完整性帶來的便利是他最大的優勢,但當然如果只是簡單小範圍的爬蟲其實不太需要用到框架爬蟲,有的時候幾十行的爬蟲硬要用框架反而更麻煩。有興趣的朋友可以上網查詢 Scrapy,網上有非常豐富的資源可以熟悉這個框架,

為什麼爬蟲?

筆者第一個接觸的程式語言是 C++,但在嘗試跟他相互認識熟悉彼此還沒徹底愛上時,就被高中指考的噩耗拆散,等到大學認識了新歡 Python,從此一去不復返。爬蟲又是 Python 的一個強項,對於入門的新手可以快速建立信心的方式之一,因此爬蟲就成了前期比較常練習的部分。

爬蟲寫一寫然後呢?

爬蟲寫一寫越到後面越發現其實他的觀念不只是可以蒐集資料而已,延伸多一點到了 API 的應用(沒錯我就是那種先接觸了爬蟲才懂 API 的門外漢),再往外延伸一點到了自動化測試(Selenium),到最後因為累積的一些爬蟲經驗,反而讓我回頭學習 Falsk / Django 這兩個網路開發框架更加的容易理解之間的關聯性。因此滿感謝當時有許多的機會可以練習這部分。

下一步?

接下來就是一直很想學習的分散式運算篇章,原則上不會著墨太多的程式碼,而是專注在概念性的分享,那就這樣!明天見


上一篇
[Day 23] 部署 Instagram 機器人
下一篇
[Day 25] Hadoop 歷史與安裝
系列文
資料蒐集與分散式運算 30 天30

尚未有邦友留言

立即登入留言