前一天簡單介紹課程當中的機器學習流程以及機器學習應用在Google產品上,今天要深入討論機器學習的流程
coursera課程的部分絕大多數都是觀看影片,影片中提到的是講師想帶給我們的一些觀念講解,對於實際上寫程式這塊都留在Hands on Lab單一功能練習任務或學習及動手實驗,理論的部分還是居多
我覺得課程當中說一開始提到建立機器學習模型這塊有點太快,如果是針對初學者,想要從零開始學習機器學習以及實作機器學習技術並運用在工作上的話,你要先了解到整個機器學習的流程並一步一步學起來比較好,前面課程的性質比較偏重在機器學習的大方向與Google和機器學習之間的關係,讓你了解到機器學習是如何對Google產生影響,需要多提到一些對於數據的處理比較好。
我們用下面這張圖來介紹:
在實務上通常會先提出一個需求,針對這個需求要以機器學習來弄一個解決方案,例如說預測未來七天商店的銷售額狀況,在此先假設或套用一個情境,去思考幾個問題:
在課程當中剛好有個Use Case討論題目可以讓我們思考:
從這當中可以讓我們思考這些與機器學習有關的問題,比如說:
像是用電量分析的例子,可以先思考說我要解決的是用電量過高想要節電的問題,我研究的標的可能是一棟大樓的用電量,資料提供者可能是台電或是此棟大樓的數據擁有者,照理來說收集到的資料大多是數值型資料,有各項設備的用電狀況與時間軸,觀察下來我可能還需要什麼樣的資料輔助或是針對現有資料開始前處理準備做機器學習的流程,最後模型得出的結果有沒有達成我當初訂定的節電目標,所以需要做什麼樣的措施來節電,實際上去做節電措施有沒有真正省到電?
這樣的思考過程,有助於你對於一開始發現、定義問題時能準備得周到
所以說上面所提到發現、定義問題的流程通常是在做機器學習之前會用到的,不過實務上也有可能今天的情況是,原本沒有這些問題或是業主不知道有這些問題,只有資料,當你拿到這些資料以目前來說不知道要解決什麼問題或可以解決什麼問題,這時需要透過資料探勘或是產生視覺化圖表讓我們可以從中看出一些規則或是想到/衍生出新的問題來。
接下來我會繼續介紹資料清理的部分