連假真的太爽,內容比較少
今天繼續看Rules of Machine Learning
Rule #7: Turn heuristics into features, or handle them externally.
將規則轉化成特徵,或在機器學習外處理
1.用規則進行預處理,ex:如果使用者已經將此人加入黑名單,那就不用再用機器學習來預測是否為垃圾郵件
2.用規則製造的特徵,ex:觀看次數一天大於100萬的,可以知道算是熱門影片,以熱門影片這個特徵,去作為推薦影片系統學習的特徵
Rule #8: Know the freshness requirements of your system
了解系統對更新需求
了解模型需要多久更新一次
Rule #9: Detect problems before exporting models.
在模型釋出前檢查問題
模型釋出一定要做完整的檢查,例如效能或ROC curve等等
Rule #10: Watch for silent failure
監控隱藏的失敗
所謂的隱藏的失敗指的是流程正確,但背後訓練的資料出現問題,例如許久未更新或採樣方式的變化,最好是能監控資料的統計結果,並定期檢查資料
Rule #11: Give feature columns owners and documentation.
對於特徵給予管理與文檔
如果系統比較大的話,最好是對於每個特徵資料,都給予相對應的維護負責人,詳細記錄特徵的描述、來源,用途等等
Rule #12: Don’t overthink which objective you choose to directly optimize.
不要過度糾結於選擇優化目標
先選擇一個重要的目標
Rule #13: Choose a simple, observable and attributable metric for your first objective.
選擇一個簡單可觀察且可以歸因於的指標做為目標
也就是說目標必須要很容易被量化,而且可以做為要達成的目標的代理目標。
例如:連結是否被點擊、使用者會待多久
不要用不直接的像是:使用者滿意程度
Rule #14: Starting with an interpretable model makes debugging easier
從可解釋的模型開始機器學習讓除錯更加容易
使用RCNN就比Faster RCNN還好除錯,因為Faster RCNN還要另外處理RPN
像是結果以機率表達,就比用zero one loss還好除錯
Rule #15: Separate Spam Filtering and Quality Ranking in a Policy Layer.
在策略層分開圾資料過濾與評分
不要將兩件不一樣的事,例如垃圾資料過濾與評分放在同一層學習處理,所有學習應該分開進行,而非一起學習,當然最後可以在不同層整合