因為連假過太爽,今天內容比較少
今天就是回去看一下Rules of Machine Learning
稍微摘錄一下重點
首先概述裡面提到
要做出一個好的機器學習的產品,大部分來說是工程問題,而非機器學習問題
因為大部分的產出,取決於好的特徵,而非好的機器學習演算法
Rule #1: Don’t be afraid to launch a product without machine learning.
不要害怕發布一個沒有機器學習的產品
可以先用一些簡單的規則替代。
簡單來說,就是機器學習需要資料,所以當機器學習並不是產品必要的部分,請在取得資料後再利用機器學習。
Rule #2: First, design and implement metrics.
首先設計與實現可量化指標
在應用機器學習前,系統要盡量紀錄完整的資料,也就是說,假設產品需要使用機器學習,必須保證產品本身能夠正確地收集有可能有用資料
Rule #3: Choose machine learning over a complex heuristic.
選擇機器學習好過複雜的規則
前面有講到可以先用一些簡單的規則
這裡則是說,如果系統需要用複雜的規則來達到目標,不如一開始就用機器學習
Rule #4: Keep the first model simple and get the infrastructure right.
第一個模型要簡單,架構要正確
在架構上必須要知道
1.系統如何取得資料,並應用到學習的演算法中,這個過程如何運作
2.怎樣去衡量系統的好壞
3.如何將模型整合到應用上
簡單的模型源自簡單的特徵
Rule #5: Test the infrastructure independently from the machine learning
測試架構應獨立於機器學習
簡單來說,系統中的機器學習部分應該是要被封裝的
以保證系統在未訓練前,所有部分都是可以被獨立測試的
資料再進入學習前,就必須檢查特徵
Rule #6: Be careful about dropped data when copying pipelines
在複製pipeline時要小心某些資料的遺失
簡單來說就是小心Cargo cult programming