小弟需要把經濟部商業司
商工登記資料的搜尋結果抓取到EXCEL儲存格中
網址如下
https://findbiz.nat.gov.tw/fts/query/QueryBar/queryInit.do
基本的像是股價更新那種小弟還ok
但像這種搜尋結果有分頁的
就完全不知道怎辦
小弟需要的是公司名稱跟公司地址
還請版上先進示範或指點
萬分感謝!
您有抓過 股價更新 您熟悉的程式語言是 ?
您或許用看看 selenium + webdriver.Chrome (我是用 python)
import time
import os
import sys
reload(sys)
sys.setdefaultencoding('big5')
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
driver=webdriver.Chrome()
driver.get("https://findbiz.nat.gov.tw/fts/query/QueryBar/queryInit.do")
inpdata = "鴻海有限公司"
driver.find_element_by_id("qryCond").send_keys(inpdata.decode('big5'))
driver.find_element_by_id("qryBtn").click()
....
html = driver.page_source
print html
以上我是在 linux
如在 windows ..... 亂碼要搞定 ...
print html.encode("utf8").decode("cp950", "ignore")
詳細的程式還是您去 google + 測試 ....
按鍵精靈是你的好幫手~~~
用爬的...
每次換頁表單所送出的資料
pagingModel.totalCount=20438&pagingModel.currentPage=4&pagingModel.totalPage=1022&model.qryCond=%E5%8F%B0%E7%81%A3&model.isAlive=all&model.cmpyType=true&model.brCmpyType=&model.busmType=&model.factType=&model.lmtdType=&model.infoType=D&model.busiItemSub=&model.city=
其中pagingModel.currentPage代表頁數,您可嘗試用迴圈去撈每一頁資料,最後再合併即可