今天要談論的是Lab: Exploring and Creating ML Datasets,此次實驗是用GCP這個平台來探索出租車數據,並且實際使用依照現實情況創建訓練、驗證、測試數據集,最後透過一個基準來評估ML表現。創建相關步驟AI Platform可以參考前一篇來做建置。
先移動到training-data-analyst> courses> machine_learning> deepdive> 02_generalization> labs並打開create_datasets.ipynb,來執行這次實驗。
第一步當然是引入此次實驗所需的套件。
利用BigQuery來抓取資料
tollrides = trips[trips['總價參數']>0]
tollrides[tollrides['時間'] == '何時']
describe()
這個語法
透過底下的可視化結果
根據上述講到的相關問題,我們在抓取資料的時候就可以避免了
利用!ls -l *.csv
語法來看檔案是否存在於目錄裡,並且使用!head csv_file.csv
來查看內部資料是不是我們想要的。
接著我們建構一個簡單的模型