iT邦幫忙

0

網頁資料轉EXCEL

小弟需要把經濟部商業司
商工登記資料的搜尋結果抓取到EXCEL儲存格中
網址如下
https://findbiz.nat.gov.tw/fts/query/QueryBar/queryInit.do

基本的像是股價更新那種小弟還ok
但像這種搜尋結果有分頁的
就完全不知道怎辦

小弟需要的是公司名稱跟公司地址

還請版上先進示範或指點
萬分感謝!

ant1017 iT邦新手 4 級 ‧ 2019-05-10 08:14:12 檢舉
用爬的??
dragonH iT邦新手 5 級 ‧ 2019-05-10 09:02:58 檢舉
單純 VBA之類的方法我不會

不過這感覺可以用爬蟲
1
echochio
iT邦研究生 5 級 ‧ 2019-05-10 10:18:37
最佳解答

您有抓過 股價更新 您熟悉的程式語言是 ?
您或許用看看 selenium + webdriver.Chrome (我是用 python)

import time
import os
import sys
reload(sys)
sys.setdefaultencoding('big5')
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
driver=webdriver.Chrome()
driver.get("https://findbiz.nat.gov.tw/fts/query/QueryBar/queryInit.do")
inpdata = "鴻海有限公司"
driver.find_element_by_id("qryCond").send_keys(inpdata.decode('big5'))
driver.find_element_by_id("qryBtn").click()
....
html = driver.page_source
print html

以上我是在 linux

如在 windows ..... 亂碼要搞定 ...

print html.encode("utf8").decode("cp950", "ignore")

詳細的程式還是您去 goole + 測試 ....

https://ithelp.ithome.com.tw/upload/images/20190510/20110611QN5GY9rF1f.png

0
舜~
iT邦新手 3 級 ‧ 2019-05-10 01:59:40

按鍵精靈是你的好幫手~~~


用爬的...
每次換頁表單所送出的資料

pagingModel.totalCount=20438&pagingModel.currentPage=4&pagingModel.totalPage=1022&model.qryCond=%E5%8F%B0%E7%81%A3&model.isAlive=all&model.cmpyType=true&model.brCmpyType=&model.busmType=&model.factType=&model.lmtdType=&model.infoType=D&model.busiItemSub=&model.city=

其中pagingModel.currentPage代表頁數,您可嘗試用迴圈去撈每一頁資料,最後再合併即可

0
pcw
iT邦研究生 3 級 ‧ 2019-05-10 12:03:03

google
selenium vba
應該可以找到協助

我要發表回答

立即登入回答