今天要先解決昨天遇到的關卡
但用了這麼久還是沒有成功把檔案抓下來,只成功抓到資料的欄位名稱而已
昨天卡在有連結卻不能成功讀取資料,後來我發現是連結不完整,抓下來的url少了一部份,在HTML的code裡面省略前面的網址,所以才會讀不出來,所以今天做了一些調整,最後用read_html就讀出來了
rawdata<-read_html(paste0("https://data.moi.gov.tw/MoiOD",substring(xmlurl[1],3,200)))
再來就是要把HTML轉換成檔案,首先先把欄位名稱抓出來
colname<-gsub("</column_name>","",gsub("<column_name>","",html_nodes(rawdata, "column_name")))
接下來應該要抓取資料內容,但我發現資料要一個欄位一個欄位抓
我還沒找到快速地抓資料方法,打算明天在處理
沒錯~我就是拖延症患者 永遠是明天再處理