2022 iThome 鐵人賽

DAY 3

AI & Data

從無到有，爬蟲-分析-預測建模，把實務面常見問題逐一釐清系列第 3 篇

股價預測篇-爬蟲part3(金融類)

14th鐵人賽

sam32564

團隊大腦已超載

2022-09-18 23:33:30

888 瀏覽

分享至

接續上一篇[股價預測篇-爬蟲part2(金融類)]，這篇教大家如何設定使用者代理，爬到所需的數據（收盤價）。

反爬蟲機制(設定使用者代理)

1.開啟上篇的url，在頁面按右鍵，進入檢查。
2.點Network > 重新整理頁面，輸入網頁上任一要爬的關鍵字（如「2021」) > 搜尋，
3.選一個搜尋到的結果，點Headers，往下滑找到user-agent，複製後面那段(如下圖)『Mozilla.....』
(小技巧:直接在網址欄輸入about:version，裡面有使用者代理程式可以複製拉!!)

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
}
res = requests.get(url,headers = headers)
res.encoding = "utf-8"
res.text

耶～～～可以到網頁的所有資料了。

BeautifulSoup

繼續縮小我們要爬取的收盤價，只針對特定表格元素去爬取。

點
按一下你要的爬取的數據如「收盤」，在網頁元素「Elements」往上滑，可以看到div='#txtFinDetailData'

from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,"lxml")
data = soup.select_one("#txtFinDetailData")
data

有沒有比較像了！

排版美化設定

import pandas as pd
dfs = pd.read_html(data.prettify())
df = dfs[0]
df

把html的資料變dataframe，有看到收盤價了！！！！

股價預測篇-爬蟲part2(金融類)

股價預測篇-分析part1(金融類)

系列文

從無到有，爬蟲-分析-預測建模，把實務面常見問題逐一釐清共 18 篇

RSS系列文訂閱系列文

4 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22199 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙