iT邦幫忙

0

請教python爬取資料-格式問題

  • 分享至 

  • xImage

各位前輩好:
小弟最近接觸python
想要爬取以下這個網址 : http://mops.twse.com.tw/mops/web/ajax_t51sb02?%27%20%27encodeURIComponent=1&step=1&firstin=1&off=1&TYPEK=sii&year=101
我是使用pandas來判讀資料
以下為我的程式碼
https://ithelp.ithome.com.tw/upload/images/20190331/20116450zMkD2P1anb.png
但上方的項目列她會錯亂
https://ithelp.ithome.com.tw/upload/images/20190331/20116450MgGMQdJiHM.png
想請教各位要怎麼寫可以解決這個問題
謝謝

froce iT邦大師 1 級 ‧ 2019-04-01 00:38:37 檢舉
把你想整理出來的格式先弄出來,要不然怎麼知道你要啥。
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0
最佳解答

pandas已經幫你寫好html的table的解析方法,你大概沒有能力動到內部的程式碼,所以最好的方式其實是用beautifulsoup自己解析table,找到要的部分再塞進pd.read_html,例如
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text)
tbody =soup.select(“tbody”).html
pd.read_html(tbody)
,另外也可以嘗試看看把pd.read_html中的header設成None或設定skiprows,然後自己定義columns。

我要發表回答

立即登入回答