iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 12
0
Google Developers Machine Learning

ML Study Jam -機器學習系列 第 12

Day 12 Generalization and Sampling part 2 (試著分配數據吧)

  • 分享至 

  • xImage
  •  

Launching into Machine Learning

Generalization and Sampling part 2

Lab: Exploring and Creating ML Datasets

今天要談論的是Lab: Exploring and Creating ML Datasets,此次實驗是用GCP這個平台來探索出租車數據,並且實際使用依照現實情況創建訓練、驗證、測試數據集,最後透過一個基準來評估ML表現。創建相關步驟AI Platform可以參考前一篇來做建置。

  1. 先移動到training-data-analyst> courses> machine_learning> deepdive> 02_generalization> labs並打開create_datasets.ipynb,來執行這次實驗。

  2. 第一步當然是引入此次實驗所需的套件。

  3. 利用BigQuery來抓取資料

    • 我們所需要的特徵包含上車的時間、上車下車的地點、乘客人數、旅行的距離、相關費用等
    • 此外為了確保抓取的資料是非常平均的,這邊利用SQL的語法進行抽樣,最後抓出來10789筆資料來做運算。

https://ithelp.ithome.com.tw/upload/images/20190916/20120289oEpvGcPSDw.png

  1. 接著把所抓取到的資料視覺化,可以發現到一件很奇怪的事
    • 也就是我行駛距離接近為0的狀況下被收取其費用,所以我們必須去處理這些奇怪的數據
    • 首先當然要先限制距離有大於0狀況同時我們還可以設定特定時間來做處理
      https://ithelp.ithome.com.tw/upload/images/20190919/2012028929dosLrjFg.png
tollrides = trips[trips['總價參數']>0]
tollrides[tollrides['時間'] == '何時']
  1. 接著使用describe()這個語法
    • 來看所有數據的分布,會發現另一項奇怪的地方也就是上下車的經緯度,最大跟最小值有0的狀況,這對於實際情況是非常不合理的。

https://ithelp.ithome.com.tw/upload/images/20190916/201202897rcI7zRe20.png

  1. 透過底下的可視化結果

    • 會發現其實根本不會有0這個數值,全部都集中在經度在-74.0~-73.8、緯度40.7~40.8在之間,所以上面的資料集其實有問題的。
      https://ithelp.ithome.com.tw/upload/images/20190919/20120289fJboVuoHgE.png
  2. 根據上述講到的相關問題,我們在抓取資料的時候就可以避免了

    • 但就是要加入相關限制條件,像是我們剛剛考慮的旅程的距離、經緯度的限制、乘客的多寡等作資料的篩選
    • 接著依照資料集的訓練、驗證、測試分為70%、15%、15%,來做資料集的分配。
    • 之後就把抓取到經過篩選的資料,存成csv檔以利我們可以直接做使用。
      https://ithelp.ithome.com.tw/upload/images/20190919/20120289ZHkZy78MJ5.png
  3. 利用!ls -l *.csv語法來看檔案是否存在於目錄裡,並且使用!head csv_file.csv來查看內部資料是不是我們想要的。

  4. 接著我們建構一個簡單的模型

    • 利用所有費用去除上我的訓練參數的平均,作為標準比率,這邊會看到是大約2.61
    • 利用此數據來做各個參數的RMSE計算,往後我們可以使用這些數值來作為訓練的標準,往後若高於此標準可能就是要去找出需要做調整的地方。

https://ithelp.ithome.com.tw/upload/images/20190916/20120289cJRj4ejjP3.png


上一篇
Day 11 Generalization and Sampling part 1 (如何概括、取樣數據)
下一篇
Day 13 Core TensorFlow part 1 (初探TensorFlow)
系列文
ML Study Jam -機器學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言