iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 6
0
自我挑戰組

30天學習筆記系列 第 6

Day 6. 資料選定與匯入-5

  • 分享至 

  • xImage
  •  

今天又要來繼續爬資料了~
抓個資料抓這麼久合理嗎QQ

我今天又多發現兩個問題
第一個問題: 先前在抓取XML檔案的網址時,一次抓好幾筆資料,前幾天先處理了一筆資料,現在要一次處理多筆資料(沒錯~要寫迴圈了)
第二個問題: 在抓取XML檔案的網址時,只抓取第一頁的資料,我沒有翻頁阿!! 所以XML的url要重抓

第二個問題我還沒辦法處理(意思就是明天再說),所以今天就先來處理第一個問題


下面是前幾天的程式碼

rawdata<-read_html(paste0("https://data.moi.gov.tw/MoiOD",substring(xmlurl[1],3,200)))
colname<-gsub("</column_name>","",gsub("<column_name>","",html_nodes(rawdata, "column_name")))
XML<-xmlTreeParse(rawdata)
list<-xmlToList(XML)[[3]]
unlist<-unlist(list)
df<-as.data.frame(matrix(unlist, ncol=146, byrow=TRUE))
colnames(df)<-colname

以下是修改成迴圈的程式

for(i in 1:5)
{
rawdata<-read_html(paste0("https://data.moi.gov.tw/MoiOD",substring(xmlurl[1],3,200)))
colname<-gsub("</column_name>","",gsub("<column_name>","",html_nodes(rawdata, "column_name")))
XML<-xmlTreeParse(rawdata)
list<-xmlToList(XML)[[3]]
unlist<-unlist(list)
df<-as.data.frame(matrix(unlist, ncol=146, byrow=TRUE))
colnames(df)<-colname
}

df為最終檔案

今天又是偷懶的一天


上一篇
Day 5. 資料選定與匯入-4
下一篇
Day 7. 資料選定與匯入-6
系列文
30天學習筆記7
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言