在課程中曾經使用到Datalab。先來看兩段官方的介紹:
功能強大的資料探索服務
Cloud Datalab 是功能強大的互動式工具,可讓您在 Google Cloud Platform 上探索、分析及轉換資料,以視覺化方式呈現資料內容,並建立機器學習模型。這套工具在 Compute Engine 上執行,可輕鬆連線至多個雲端服務,讓您能專注從事數據資料學工作。
已整合且為開放原始碼
Cloud Datalab 的開發基礎為 Jupyter (先前稱為 IPython),Jupyter 以成功的模組化生態系統和實用的知識庫著稱。因此,Cloud Datalab 能讓您使用 Python、SQL 和 JavaScript (針對 BigQuery 使用者定義的函數),在 BigQuery、Cloud Machine Learning Engine、Compute Engine 和 Cloud Storage 中分析資料。
Datalab是個開源專案。在GCP可以透過Cloud Shell執行datalab create <datalab-instance-name>
建立環境(需要花上一段時間)。
接著會需要修改Web Preview Port為8081,然後開啟Web Preview。
如果無法連線,可以嘗試執行datalab connect <datalab-instance-name>
。要刪除實體可以使用datalab delete <datalab-instance-name>
。其他使用方式可以參考相關文檔。
再來看一張更漂亮的截圖:
從使用上,感覺與Jupyter Notebook或是Jupyterlab感覺差異不大,在GCP使用上還有另一個更簡易的方式建立Jupyterlab,明天會來寫寫筆記。所以我不太知道在GCP使用Datalab究竟有什麼優點。不過使用GCP,無須自己有伺服器,還可以動態調整機體狀態,最重要的是有協作的能力。此外,更讓我知道這麼一樣工具。
在ML Study Jam 機器學習培訓計劃 社團,有人分享這麼一則貼文:
已經有多年 ML 的經驗,但是這整套課程還是提供了蠻多新的視角的,尤其是 feature engineering 跟 art and science of ML,,謝謝 Google 提供這些資源
這兩堂課,也對我之前學習資料探勘上的知識,有不小衝擊與吸收。