今天又要來繼續爬資料了~
抓個資料抓這麼久合理嗎QQ
我今天又多發現兩個問題
第一個問題: 先前在抓取XML檔案的網址時,一次抓好幾筆資料,前幾天先處理了一筆資料,現在要一次處理多筆資料(沒錯~要寫迴圈了)
第二個問題: 在抓取XML檔案的網址時,只抓取第一頁的資料,我沒有翻頁阿!! 所以XML的url要重抓
第二個問題我還沒辦法處理(意思就是明天再說),所以今天就先來處理第一個問題
下面是前幾天的程式碼
rawdata<-read_html(paste0("https://data.moi.gov.tw/MoiOD",substring(xmlurl[1],3,200)))
colname<-gsub("</column_name>","",gsub("<column_name>","",html_nodes(rawdata, "column_name")))
XML<-xmlTreeParse(rawdata)
list<-xmlToList(XML)[[3]]
unlist<-unlist(list)
df<-as.data.frame(matrix(unlist, ncol=146, byrow=TRUE))
colnames(df)<-colname
以下是修改成迴圈的程式
for(i in 1:5)
{
rawdata<-read_html(paste0("https://data.moi.gov.tw/MoiOD",substring(xmlurl[1],3,200)))
colname<-gsub("</column_name>","",gsub("<column_name>","",html_nodes(rawdata, "column_name")))
XML<-xmlTreeParse(rawdata)
list<-xmlToList(XML)[[3]]
unlist<-unlist(list)
df<-as.data.frame(matrix(unlist, ncol=146, byrow=TRUE))
colnames(df)<-colname
}
df為最終檔案
今天又是偷懶的一天