什麼是網路爬蟲 ? 網路爬蟲又稱網路蜘蛛,是一種自動瀏覽網頁的程式 我曾經把網路爬蟲和網路程式設計劃上等號 不過網路程式設計聽起來有點太廣泛 ? 好像在述說著整...
作者簡介 Yotsuba 這個名字取自日本動畫《五等分の花嫁》裡面的角色中野四葉。 從那之後在網路上,任何需要暱稱的地方,我都以這個名字出現,包括來參加鐵人賽。...
對我來說,能夠自動化的東西,幹嘛要手動呢? 所以我想說,有個比admin更快速的東西是不是更好呢?雖然公司網站都是設定過,但我還是無聊想玩看看XDD 公司網站設...
自製 Progress Bar 繼前一篇,來補充自製一個小功能,讓這個程式會好用一些些。 爬蟲在爬的時候,看 console 的畫面空蕩蕩的,是不是會有一種莫名...
自動更新每日個股日成交資訊 結合前幾篇所學,我們來做一個可以自動更新日成交資訊的程式吧! Requests 基本應用 - 讀取 Response JSO...
重複使用 TCP 連線 本篇章請搭配以下一起服用: HTTP - 複習傳送門 TCP / UDP - 複習傳送門 不知道各位還記不記得 HTTP 的...
多執行緒(multithreading) 所以我們的多執行緒在程式是怎麼運作呢? 一般情況: 假設 req1、req2 都是送 request 到 ser...
偽裝 偽裝!?爬蟲還要偽裝喔? 是的,不知道各位還記不記得在"關於爬蟲"有提到過: 爬蟲存取網站的過程會消耗目標系統資源。 不少網路系統並不默許爬蟲工作...
開始前我簡單帶過一下我們這支爬蟲 Beautiful soup 的用法好了: from bs4 import BeautifulSoup html = &quo...
承接上篇,抓日成交資訊時,我們得知道股票代碼,那如果我想要有一個可以定時更新的股票代碼清單,要去哪裡拿呢? 抓取所有股票代碼 - 尋找 URL 一樣到證交所...
好的,講解完 Requests 套件的基本介紹後,終於要進入真實情況的爬蟲應用拉! 但我們一步一步來,先從簡單的開始,運用我們前面提到的基本應用來做個小爬蟲。...
這篇是基礎應用的最後一篇,主要補充講解幾個基本功能。 檢查 Response Status 當我們在爬蟲拿到 Response 時,通常為了要確保內容正確,...
今天要來講的是,讀取送出 Request 後拿回來的 Response。 讀取 Response 以下幾種為常用到的方式: String import...
圖片來源:https://www.lohaslife.cc/archives/18537 昨天最後遇到的問題是,目前電腦都是在我們的電腦上執行,而且是手動...
實戰演練開始前,稍微來講解一下 Requests 的基本使用,當作是暖身。 用 Requests 送 Request 記不記得之前有提過 HTTP 有不同的 M...
爬蟲事前準備 本篇章之後將進入爬蟲環節,但開始撰寫程式前,我們先來安裝會使用的套件吧! 本系列文將使用 Requests,是一個基於 urllib3 為基礎開發...
圖片來源:https://www.epochtimes.com/b5/18/1/5/n10026856.htm 我先來講個故事吧~ 故事的主角小明,今年3...
圖片來源:https://unsplash.com/photos/mcAUHlGirVs 前兩天已經將各股日成交資料存成.csv檔了,接著就來利用這些資料...
複習一下昨天的進度 - 我們取得單月的個股日成交價的資料,並在電腦中儲存成csv檔。 目前都只有單月的個股日成交價,但如果想要一整年的個股日成交價時,該怎麼辦呢...
各位早安,今天是第24天,但其實爬蟲的技巧大致上已經教得差不多了,而且我猜會看我的文章的人,應該都想知道爬蟲還可以做哪些應用吧,所以我想鐵人賽的最後幾天,就來做...
昨天已經找到的KKBOX用來傳資料的API,也知道各個參數的意義了,今天就實際將資料抓下來吧! 歌曲資訊 回到昨天那個API,是用JSON格式傳遞資料,資料的...
歐嗨喲~ 大家昨天有睡飽嗎? 今天又是一個新的專案,當然一樣是爬蟲,但是我完全不用BeautifulSoup一樣可以取得資料,這是怎麼做到的? 好奇嗎? 就讓我...
昨天結束在Facebook登入之後,今天就接續昨天的內容,以木棉花的粉絲專頁為例,來講怎麼爬下來貼文的內容吧! 進到木棉花粉專 time.sleep(5)...
圖片來源:https://unsplash.com/photos/m_HRfLhgABo 安安,今天是第20天了哦,離結束只剩最後1/3了,感覺時間過得真...
昨天教到使用cookie讓伺服器記得我們曾經做過哪些事,但缺點就是每次Request都要加上cookie才行,非常麻煩。今天就來講怎麼使用session解決這個...
偷看一下專案長怎樣 我預期的專案想要完成這幾件事: 取得八卦版每篇文章的標題、作者和發文時間。 取得文章內容。 取得底下的留言,並依照標籤分類。 整理資料並...
大家安安,歡迎來到鐵人賽的第15天! 不知不覺已經過完一半了,再努力堅持下去吧! 昨天已經將網站的原始碼抓下來了,然而我們只需要原始碼中特定的幾筆資料而已,所以...
⚠行前通知 先前已經學過Python但想學爬蟲的人可以回來囉~ 從今天起就開始大家最期待的網頁爬蟲的單元了! 雖然比原本預計的晚了2天,但該講的依舊不會少,那麼...
你只要懂爬蟲,爬蟲就會幫你 引用自維基百科: 網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機...
目標: 爬取股價,使用線性回歸預測股價 from datetime import time from stock.models import stock_pri...