Day 6. 資料選定與匯入-5

第 12 屆 iThome 鐵人賽

DAY 6

自我挑戰組

30天學習筆記系列第 6 篇

12th鐵人賽

sally

2020-09-21 23:32:28

446 瀏覽

分享至

今天又要來繼續爬資料了~
抓個資料抓這麼久合理嗎QQ

我今天又多發現兩個問題
第一個問題: 先前在抓取XML檔案的網址時，一次抓好幾筆資料，前幾天先處理了一筆資料，現在要一次處理多筆資料(沒錯~要寫迴圈了)
第二個問題: 在抓取XML檔案的網址時，只抓取第一頁的資料，我沒有翻頁阿!! 所以XML的url要重抓

第二個問題我還沒辦法處理(意思就是明天再說)，所以今天就先來處理第一個問題

下面是前幾天的程式碼

rawdata<-read_html(paste0("https://data.moi.gov.tw/MoiOD",substring(xmlurl[1],3,200)))
colname<-gsub("</column_name>","",gsub("<column_name>","",html_nodes(rawdata, "column_name")))
XML<-xmlTreeParse(rawdata)
list<-xmlToList(XML)[[3]]
unlist<-unlist(list)
df<-as.data.frame(matrix(unlist, ncol=146, byrow=TRUE))
colnames(df)<-colname

以下是修改成迴圈的程式

for(i in 1:5)
{
rawdata<-read_html(paste0("https://data.moi.gov.tw/MoiOD",substring(xmlurl[1],3,200)))
colname<-gsub("</column_name>","",gsub("<column_name>","",html_nodes(rawdata, "column_name")))
XML<-xmlTreeParse(rawdata)
list<-xmlToList(XML)[[3]]
unlist<-unlist(list)
df<-as.data.frame(matrix(unlist, ncol=146, byrow=TRUE))
colnames(df)<-colname
}

df為最終檔案

今天又是偷懶的一天