iT邦幫忙

網路爬蟲相關文章
共有 127 則文章
鐵人賽 Modern Web DAY 2

技術 Day 2 初探網路爬蟲

什麼是網路爬蟲 ? 網路爬蟲又稱網路蜘蛛,是一種自動瀏覽網頁的程式 我曾經把網路爬蟲和網路程式設計劃上等號 不過網路程式設計聽起來有點太廣泛 ? 好像在述說著整...

鐵人賽 Modern Web DAY 1

技術 Day 1 前言

作者簡介 Yotsuba 這個名字取自日本動畫《五等分の花嫁》裡面的角色中野四葉。 從那之後在網路上,任何需要暱稱的地方,我都以這個名字出現,包括來參加鐵人賽。...

技術 Day1 自我學習的開始 使用Python Selenium爬取公司相關的網站

對我來說,能夠自動化的東西,幹嘛要手動呢? 所以我想說,有個比admin更快速的東西是不是更好呢?雖然公司網站都是設定過,但我還是無聊想玩看看XDD 公司網站設...

鐵人賽 Software Development DAY 29

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY29 - 實戰演練:自製進度條 Progress Bar

自製 Progress Bar 繼前一篇,來補充自製一個小功能,讓這個程式會好用一些些。 爬蟲在爬的時候,看 console 的畫面空蕩蕩的,是不是會有一種莫名...

鐵人賽 Software Development DAY 28

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY28 - 實戰演練:集大成 - 自動更新每日個股日成交資訊

自動更新每日個股日成交資訊 結合前幾篇所學,我們來做一個可以自動更新日成交資訊的程式吧! Requests 基本應用 - 讀取 Response JSO...

鐵人賽 Software Development DAY 27

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY27 - 實戰演練:重複使用 TCP 連線

重複使用 TCP 連線 本篇章請搭配以下一起服用: HTTP - 複習傳送門 TCP / UDP - 複習傳送門 不知道各位還記不記得 HTTP 的...

鐵人賽 Software Development DAY 26

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY26 - 實戰演練:多執行緒 - 抓取多個個股日成交資訊

多執行緒(multithreading) 所以我們的多執行緒在程式是怎麼運作呢? 一般情況: 假設 req1、req2 都是送 request 到 ser...

鐵人賽 Software Development DAY 24

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY24 - 實戰演練:偽裝

偽裝 偽裝!?爬蟲還要偽裝喔? 是的,不知道各位還記不記得在"關於爬蟲"有提到過: 爬蟲存取網站的過程會消耗目標系統資源。 不少網路系統並不默許爬蟲工作...

鐵人賽 Software Development DAY 23

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY23 - 實戰演練:HTML Response - 抓取股票代碼清單 (2)

開始前我簡單帶過一下我們這支爬蟲 Beautiful soup 的用法好了: from bs4 import BeautifulSoup html = &quo...

鐵人賽 Software Development DAY 22

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY22 - 實戰演練:HTML Response - 抓取股票代碼清單 (1)

承接上篇,抓日成交資訊時,我們得知道股票代碼,那如果我想要有一個可以定時更新的股票代碼清單,要去哪裡拿呢? 抓取所有股票代碼 - 尋找 URL 一樣到證交所...

鐵人賽 Software Development DAY 21

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY21 - 實戰演練:JSON Response - 抓取個股日成交資訊

好的,講解完 Requests 套件的基本介紹後,終於要進入真實情況的爬蟲應用拉! 但我們一步一步來,先從簡單的開始,運用我們前面提到的基本應用來做個小爬蟲。...

鐵人賽 Software Development DAY 20

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY20 - Python:Requests 基本應用 (3)

這篇是基礎應用的最後一篇,主要補充講解幾個基本功能。 檢查 Response Status 當我們在爬蟲拿到 Response 時,通常為了要確保內容正確,...

鐵人賽 Software Development DAY 19

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY19 - Python:Requests 基本應用 (2)

今天要來講的是,讀取送出 Request 後拿回來的 Response。 讀取 Response 以下幾種為常用到的方式: String import...

鐵人賽 自我挑戰組 DAY 29

技術 Day 29:專案07 - 天氣小助理03 | Heroku雲端平台

圖片來源:https://www.lohaslife.cc/archives/18537 昨天最後遇到的問題是,目前電腦都是在我們的電腦上執行,而且是手動...

鐵人賽 Software Development DAY 18

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY18 - Python:Requests 基本應用 (1)

實戰演練開始前,稍微來講解一下 Requests 的基本使用,當作是暖身。 用 Requests 送 Request 記不記得之前有提過 HTTP 有不同的 M...

鐵人賽 Software Development DAY 17

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY17 - 爬蟲事前準備

爬蟲事前準備 本篇章之後將進入爬蟲環節,但開始撰寫程式前,我們先來安裝會使用的套件吧! 本系列文將使用 Requests,是一個基於 urllib3 為基礎開發...

鐵人賽 自我挑戰組 DAY 27

技術 Day 27:專案07 - 天氣小助理01 | 氣象資料API

圖片來源:https://www.epochtimes.com/b5/18/1/5/n10026856.htm 我先來講個故事吧~ 故事的主角小明,今年3...

鐵人賽 自我挑戰組 DAY 26

技術 Day 26:專案06 - 股市趨勢圖03 | Matplotlib、Pandas繪圖

圖片來源:https://unsplash.com/photos/mcAUHlGirVs 前兩天已經將各股日成交資料存成.csv檔了,接著就來利用這些資料...

鐵人賽 自我挑戰組 DAY 25

技術 Day 25:專案06 - 股市趨勢圖02 | 整年股市資料、Postman

複習一下昨天的進度 - 我們取得單月的個股日成交價的資料,並在電腦中儲存成csv檔。 目前都只有單月的個股日成交價,但如果想要一整年的個股日成交價時,該怎麼辦呢...

鐵人賽 自我挑戰組 DAY 24

技術 Day 24:專案06 - 股市趨勢圖01 | 單月股市API、Pandas

各位早安,今天是第24天,但其實爬蟲的技巧大致上已經教得差不多了,而且我猜會看我的文章的人,應該都想知道爬蟲還可以做哪些應用吧,所以我想鐵人賽的最後幾天,就來做...

鐵人賽 自我挑戰組 DAY 23

技術 Day 23:專案05 - KKBOX風雲榜02 | AJAX

昨天已經找到的KKBOX用來傳資料的API,也知道各個參數的意義了,今天就實際將資料抓下來吧! 歌曲資訊 回到昨天那個API,是用JSON格式傳遞資料,資料的...

鐵人賽 自我挑戰組 DAY 22

技術 Day 22:專案05 - KKBOX風雲榜01 | AJAX

歐嗨喲~ 大家昨天有睡飽嗎? 今天又是一個新的專案,當然一樣是爬蟲,但是我完全不用BeautifulSoup一樣可以取得資料,這是怎麼做到的? 好奇嗎? 就讓我...

鐵人賽 自我挑戰組 DAY 21

技術 Day 21:專案04 - Facebook爬蟲02 | Selenium

昨天結束在Facebook登入之後,今天就接續昨天的內容,以木棉花的粉絲專頁為例,來講怎麼爬下來貼文的內容吧! 進到木棉花粉專 time.sleep(5)...

鐵人賽 自我挑戰組 DAY 20

技術 Day 20:專案04 - Facebook爬蟲01 | ChromeDriver、Selenium

圖片來源:https://unsplash.com/photos/m_HRfLhgABo 安安,今天是第20天了哦,離結束只剩最後1/3了,感覺時間過得真...

鐵人賽 自我挑戰組 DAY 17

技術 Day 17:專案03 - PTT 八卦版爬蟲02 | session、post

昨天教到使用cookie讓伺服器記得我們曾經做過哪些事,但缺點就是每次Request都要加上cookie才行,非常麻煩。今天就來講怎麼使用session解決這個...

鐵人賽 自我挑戰組 DAY 16

技術 Day 16:專案03 - PTT 八卦版爬蟲01 | cookie

偷看一下專案長怎樣 我預期的專案想要完成這幾件事: 取得八卦版每篇文章的標題、作者和發文時間。 取得文章內容。 取得底下的留言,並依照標籤分類。 整理資料並...

鐵人賽 自我挑戰組 DAY 15

技術 Day 15:專案02 - PTT C_Chat版爬蟲02 | BeautifulSoup

大家安安,歡迎來到鐵人賽的第15天! 不知不覺已經過完一半了,再努力堅持下去吧! 昨天已經將網站的原始碼抓下來了,然而我們只需要原始碼中特定的幾筆資料而已,所以...

鐵人賽 自我挑戰組 DAY 14

技術 Day 14:專案02 - PTT C_chat版爬蟲01 | 爬蟲簡介、request和response、Requests

⚠行前通知 先前已經學過Python但想學爬蟲的人可以回來囉~ 從今天起就開始大家最期待的網頁爬蟲的單元了! 雖然比原本預計的晚了2天,但該講的依舊不會少,那麼...

鐵人賽 Software Development DAY 4

技術 [Python 爬蟲這樣學,一定是大拇指拉!] DAY04 - 關於爬蟲

你只要懂爬蟲,爬蟲就會幫你 引用自維基百科: 網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機...

技術 Day34 參加職訓(機器學習與資料分析工程師培訓班),網站設計與網頁工程技術

目標: 爬取股價,使用線性回歸預測股價 from datetime import time from stock.models import stock_pri...