iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 6
0
AI & Data

量化投資與機器學習研究系列 第 6

06.爬蟲工具pyquery用法

  • 分享至 

  • xImage
  •  

pyquery語法類似jquery,有什麼問題可以查詢jquery看看怎麼用
jquery的教學

選id: #
如果有id優先使用

選class: .
要確保沒有相同的class,class裡面有空格用.取代空格

同時選多個
用逗號區隔
'.article-header,.article-content'

下一層th
table>th

所有以下th
table th

選上一層: parent
很難選沒有什麼id,class的可以用

for table in response.dom('table[bgcolor="#FFFFFF"]').items():
    treq0 = table.parent().parent().parent('tr:eq(0)')

包含某attribute的元素
div[data-desc='內文']

包含某文字的元素
th:contains('產業別')

取attribute值
(".listq input[value='下一頁']").attr('onclick')

取元素中的第幾個
tr:eq(0)

很常爬這個清況

https://ithelp.ithome.com.tw/upload/images/20181020/20103419Dq2USBfjbK.png

如果要取上面的某些欄位

columns = ['產業類別', '營利事業統一編號', '實收資本額', '已發行普通股數或TDR原股發行股數', '特別股', '電話', '地址', '主要經營業務']
for col in columns:
    value = response.dom(f"th:contains('{col}')").eq(0).next().text()

取得關鍵字的.next()就可以

大概常用的就這些


上一篇
05.爬蟲工具scrapy用法
下一篇
07.爬股票代號、產業別
系列文
量化投資與機器學習研究30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言