iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 20
0
AI & Data

實實在在地學習人工智慧-基礎理論探討與經典案例實作系列 第 20

【Day 20】開始寫程式拉!房價預測實戰演練 -資料匯入和介紹

  • 分享至 

  • xImage
  •  

原本是想找只有整個合在一起的data讓大家練習切割出測試集的,但目前在kaggle上面看到比較有名又有比較完整的data的競賽練習好像就是昨天這個:
Kaggle_House Prices
就拿這個做為我們的實戰演練吧!這三天會先使用才剛學完的Kearas直接拿來複習並加強!我在實戰演練的部分可能不會一直都是程式碼解釋哦,有時候遇上前面基礎沒提到的會再提一下!GOGO!

下載data先

連接到這
https://ithelp.ithome.com.tw/upload/images/20191005/20121049KNqPBCUGS6.jpg
點選紅色的download下載全部資料,綠色是裡面會有資料~
解壓縮後會有:
https://ithelp.ithome.com.tw/upload/images/20191005/20121049AG5xK58cYa.jpg
總共有四個檔案:
1.data_description:資料的描述,txt檔
2.sample_submission:要繳交回去查看test的預測價格正確程度,csv檔
3.test:測試集,csv檔
4.train:訓練集,csv檔

開始寫程式拉!

引入資料

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

df_train = pd.read_csv(r'C:\Users\USER\Desktop\house-prices-advanced-regression-techniques\train.csv') #將資料變成dataframe
df_test  = pd.read_csv(r'C:\Users\USER\Desktop\house-prices-advanced-regression-techniques\test.csv')
print(df_train) #印出資料查看資料內容

輸出片段:
https://ithelp.ithome.com.tw/upload/images/20191005/20121049sEOWIyB4pr.jpg
https://ithelp.ithome.com.tw/upload/images/20191005/20121049ROxw8y33BK.jpg
https://ithelp.ithome.com.tw/upload/images/20191005/20121049DmmcETQq7D.jpg
這樣打出來其實沒有說很好看/images/emoticon/emoticon06.gif
其實也可以直接去資料夾裡面將train.csv檔點開查看長相:
1.最左邊的行A是Id:
https://ithelp.ithome.com.tw/upload/images/20191005/20121049kTweuUcz48.jpg
2.最右邊的行CC是Saleprice:
https://ithelp.ithome.com.tw/upload/images/20191005/201210499hKBVgTMVk.jpg
為什麼要特別提到這兩個呢?
因為在我們的train資料裡面,我們不需要Id,對我們來說它們只是一堆不同的點點(視覺化後),所以不必要在乎是第幾個。至於Saleprice則是我們最後要判斷的數值,對我們在訓練時是相當重要的,是Y的意思,也是標籤的意思!
資料上的許多屬性,如MSSubClass、MSZoning、LotFrontage等等和Saleprice的關係,就很像之前提到的JOHN國坪數和價錢的關係,只是現在影響價格的種類變多了!

明天會先講解一下交叉驗證觀念再繼續唷,今天只是小起步而已,GOGO!


上一篇
【Day 19】開始寫程式拉!房價預測前哨戰-Kaggle介紹
下一篇
【Day 21】開始寫程式拉!房價預測實戰演練 -資料刪除、Seaborn輔助查看資料和驗證集登場
系列文
實實在在地學習人工智慧-基礎理論探討與經典案例實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言