Day25 Rules of Machine Learning Part2

第 11 屆 iThome 鐵人賽

DAY 26

自我挑戰組

11th鐵人賽

1151 瀏覽

連假真的太爽，內容比較少

Rule #7: Turn heuristics into features, or handle them externally.
將規則轉化成特徵，或在機器學習外處理

1.用規則進行預處理，ex:如果使用者已經將此人加入黑名單，那就不用再用機器學習來預測是否為垃圾郵件
2.用規則製造的特徵，ex:觀看次數一天大於100萬的，可以知道算是熱門影片，以熱門影片這個特徵，去作為推薦影片系統學習的特徵

Rule #8: Know the freshness requirements of your system
了解系統對更新需求

了解模型需要多久更新一次

Rule #9: Detect problems before exporting models.
在模型釋出前檢查問題

模型釋出一定要做完整的檢查，例如效能或ROC curve等等

Rule #10: Watch for silent failure
監控隱藏的失敗

所謂的隱藏的失敗指的是流程正確，但背後訓練的資料出現問題，例如許久未更新或採樣方式的變化，最好是能監控資料的統計結果，並定期檢查資料

Rule #11: Give feature columns owners and documentation.
對於特徵給予管理與文檔

如果系統比較大的話，最好是對於每個特徵資料，都給予相對應的維護負責人，詳細記錄特徵的描述、來源，用途等等

Rule #12: Don’t overthink which objective you choose to directly optimize.
不要過度糾結於選擇優化目標

先選擇一個重要的目標

Rule #13: Choose a simple, observable and attributable metric for your first objective.
選擇一個簡單可觀察且可以歸因於的指標做為目標

也就是說目標必須要很容易被量化，而且可以做為要達成的目標的代理目標。
例如:連結是否被點擊、使用者會待多久
不要用不直接的像是:使用者滿意程度

Rule #14: Starting with an interpretable model makes debugging easier
從可解釋的模型開始機器學習讓除錯更加容易

使用RCNN就比Faster RCNN還好除錯，因為Faster RCNN還要另外處理RPN
像是結果以機率表達，就比用zero one loss還好除錯

Rule #15: Separate Spam Filtering and Quality Ranking in a Policy Layer.
在策略層分開圾資料過濾與評分

不要將兩件不一樣的事，例如垃圾資料過濾與評分放在同一層學習處理，所有學習應該分開進行，而非一起學習，當然最後可以在不同層整合

系列文

Tensorflow.js初學筆記共 27 篇

8 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙