如何將本機HTML檔案特定表格抓取前五大的數字

python 網路爬蟲 html beautifulsoup python3

lulu_meat 2021-06-28 15:46:11 ‧ 2774 瀏覽

分享至

不好意思下了這麼拗口的標題><
想請問各位大大python有甚麼方法可以把下圖紅框處的部分抓前五名的數字呢?

我一開始的想法是用BeautifulSoup套件將指定表格的內容爬出來
再將紅框數字部份存到陣列裡取前五名
結果不幸的事發生了
這份HTML檔案所有table的class name和格式都一樣
也完全沒有id
所以我完全沒辦法去指定我要抓的特定表格
每個table間唯一不一樣的地方只有下圖紅框處的"summary"

請問這種HTML是不是不能用BeautifulSoup去爬呢?
如果是的話要用甚麼方式完成比較好呢?
謝謝各位大師的幫忙!
下列連結為HTML檔案:
https://drive.google.com/file/d/1ul6c6fUaszUw3cwYHcN9rww6iOH0ptiD/view?usp=sharing
我自己目前寫的程式碼如下:

import bs4 
path = './B2BDB1.html' 
with open(path, 'r') as f: 
    soup = bs4.BeautifulSoup(f.read(), 'html.parser') 
    titles = soup.find_all("table")[29]
for title in titles: 
    print(titles)

看更多先前的討論...收起先前的討論...

froce iT邦大師 1 級 ‧ 2021-06-28 15:55:18 檢舉

去查css selector
table[summary='This table display top SQL by CPU time']

japhenchen iT邦超人 1 級 ‧ 2021-06-28 15:58:05 檢舉

可以用美湯去爬啊，只是要用for ... in 去枚舉每一行逐個欄位去append到list，沒法用名字而已

froce iT邦大師 1 級 ‧ 2021-06-28 16:03:21 檢舉

不過說真的，要爬這種的，用pandas來做吧...
https://pbpython.com/pandas-html-table.html

lulu_meat iT邦研究生 5 級 ‧ 2021-06-28 16:13:54 檢舉

謝謝各位大神回覆!!
這份檔案的表格有夠多我又有夠菜只知道美麗湯和selenium這兩種(好無知)
我會去研究一下pandas要怎麼使用(希望我做的出來)
再次謝謝各位大大!

ccutmis iT邦高手 2 級 ‧ 2021-06-28 16:16:34 檢舉

這邊大師很多我就不土法煉鋼了簡單來說分兩部份處理
1. 從爬出來的源碼中箤取出 table的部份
2. table資料轉換到 pandas 取得某欄位的 top 5 (這部份可以在google搜到不少範例，例如搜: 'python pandas top 5')

froce iT邦大師 1 級 ‧ 2021-06-28 16:33:59 檢舉

然後，你不放份範例的html code誰有辦法幫你寫啦...

登入發表討論

直播研討會

3 個回答

froce

iT邦大師 1 級 ‧ 2021-06-29 08:53:50

最佳解答

from pyquery import PyQuery as pq
import pandas as pd

html = None
with open("B2BDB1.html", "r") as f:
    html = pq("".join(f.readlines()))
    
table = html.find('table[summary="This table displays top SQL by CPU time"]')
tabledf = pd.read_html(table.outer_html())[0]
print(tabledf.sort_values("Elapsed Time (s)", ascending=False)[:5])

這時候就是大喊pandas真好用就對了。

回應 1
分享
檢舉

lulu_meat iT邦研究生 5 級 ‧ 2021-06-29 10:38:34 檢舉

謝謝大神!!
我去查了一下pandas教學學會把兩列相除比大小了
好開心...
pandas真好用!

登入發表回應

rogeryao

iT邦超人 7 級 ‧ 2021-06-28 16:22:18

請參閱 : How to only get data of first table on a Wikipedia page using BeautifulSoup?

# find all table ,get the first
table = soup.find_all('table', class_="wikitable")[0]  # Only use the first table

回應 1
分享
檢舉

lulu_meat iT邦研究生 5 級 ‧ 2021-06-28 17:19:57 檢舉

謝謝roger大師! 我剛剛試成功了! 可以把指定表格抓出來!

登入發表回應

海綿寶寶

iT邦大神 1 級 ‧ 2021-06-28 16:46:02

你這個報表是 AWR ordered by CPU time
建議可以改用 AWR ordered by Elapsed time
再去取前五名
就不用自己排序

參考這篇

回應 2
分享
檢舉

lulu_meat iT邦研究生 5 級 ‧ 2021-06-28 17:08:00 檢舉

謝謝大師回覆!
因為這份報表是主管產出的
他直接請我把某個表格的資料作排序
我也不好意思請他改用別的報表>//<

海綿寶寶 iT邦大神 1 級 ‧ 2021-06-28 17:59:14 檢舉

主管應該有他的用意

加油囉
祝妳好運

登入發表回應

我要發表回答

立即登入回答

參賽組數

1064 組

團體組數

40 組

累計文章數

22199 篇

完賽人數

600 人

透過 OpenTelemetry 實現醫療資訊系統跨環境監控架構的一致性

Cloud Summit 臺灣雲端大會 |

28 分

企業與機關如何確保上雲資訊安全

臺灣資安大會 |

31 分

利用語言模型強化威脅情資

奧義智慧科技 |

36 分

行動身分識別新趨勢線上說明會

全景軟體 - 專注於人、事、物認證 |

77 分

OT 資安防護生產現場實務

精品科技 ─ 捍衛您的資料堡壘 |

49 分

用 commit 生成編年史、構築世界再到多重宇宙

Hello World Dev Conference |

34 分

業務戰略數位轉型成功關鍵

23 分

加速驅動科學分析，突破數據價值 — HP x NVIDIA 資料科學應用研討會

IT EXPLAINED |

41 分

醫療服務上雲端 - 智慧醫療的新挑戰與契機

Cloud Summit 臺灣雲端大會 |

43 分

高速變動的產業中，需求是如何產出的？

Agile Summit 敏捷高峰會 |

41 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙