iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 19
0
Google Developers Machine Learning

Google Developers Machine Learning 學習系列 第 19

【Day 19】How Google does Machine Leaning(Python notebooks in the cloud-2)

前言

快爆炸的九月後半,希望能把鐵人賽撐完

主題

4.1 Working with managed services

https://ithelp.ithome.com.tw/upload/images/20190920/20120188N7HydBfUPB.png

如上圖所示,在DataLab中所進行的流程與GCP各API串聯的對應:

  1. 讀檔: DataLab中通常會從資料夾內讀取文件,大多數row data會以*.csv檔案被讀取;對應到GCP中的API就是Cloud Storage,各種檔案包括:影像、音訊、文本等等,都能夠被儲存在Storage中被讀取。
  2. 資料處理: 將檔案讀取以後,就會在notebook中進行data cleaning,以python進行處理時,pandas套件會是首選,若是用Java則會使用Apache beam的相關套件進行處理;在GCP中對應到Cloud Dataflow的API功能,這項功能可以管理撰寫好的資料處理程式,並且圖形化展現其運行的生命週期。
  3. 訓練模型: 最後,將處理完的資料,丟入Tensorflow建構的模型中,訓練出機器學習的模型;在GCP中,這部分就交由Cloud Machine Learning的API運行。
    從這些對應的元件可以了解到,資料科學家利用DataLab對於小筆的資料先進行清理、分析、模型訓練,然後,可以將這些流程用Google Cloud Platform中的API實現大量資料且自動化運行的流程,建構出更強大的模型。

https://ithelp.ithome.com.tw/upload/images/20190920/201201881U9KVi4HHq.png

這張圖把各項需要的功能與對應的API列出來,未來的課程中會慢慢介紹到,因此這邊就先暫時不贅述。


上一篇
【Day 18】How Google does Machine Leaning(Python notebooks in the cloud-1)
下一篇
【Day 20】Launching into Machine Learning(Introduction to Practical ML-1)
系列文
Google Developers Machine Learning 學習30

尚未有邦友留言

立即登入留言