2021 iThome 鐵人賽

DAY 16

0

AI & Data

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)系列第 16 篇

[Day 16] Data! — 資料就是我的超能力

13th鐵人賽

2021-10-01 21:32:26

1405 瀏覽

分享至

Data is the hardest part of ML and the most important piece to get right...
Broken data is the most common cause of problems in production ML systems. — Uber

前言

在 Software 2.0 的概念中，資料為機器學習的第一類公民(First-class citizen)，因為一切都始於資料，換句話說，模型並不是魔法，有意義的資料才是關鍵。
那什麼才叫有意義的資料呢? 其特質如下：

最大化具有預測性的內容 (Predictive content)。
最小化沒幫助的資料 (Non-informative data)。
訓練集與實際資料的特徵空間涵蓋範圍盡可能一致。

而為了使資料的品質提升，我們就得建立良好的 Data Pipeline。

Data Pipeline

前面提到過 ML Pipeline 是 ML 產品的核心，它指的是實作整個機器學習產品的軟體架構，包含自動化、監控與維護整個 ML 工作流程，也是 MLOps 的關鍵元素。
依照 ML 產品的生命週期可以將 Data Pipeline 需要進行的工作歸納為以下幾點：

*圖片修改自 MLEP — Importance of Data

經由這個流程，我們希望能達到以下目標：

標籤 (Labeling)：標籤正確性與一致性。
特徵空間涵蓋範圍 (Feature space coverage)：確保訓練集涵蓋的特徵空間與模型部署後會接收到的實際資料相同。
最低限度的維數 (Minimal dimensionality)：盡可能降低特徵向量的維度，以最佳化系統表現。
最大程度的資料預測能力 (Maximum predictive data)：在降低維度的同時盡可能保持或加強資料所包含的有用資訊。
公平性 (Fairness)：必須衡量資料與模型的公平性。
極端條件 (Rare conditions)：罕見類別的表現不能差。

其中特徵工程 (Feature engineering) 可以最大化資料的預測性，而特徵選擇 (Feature selection) 則可以衡量具有預測性的資訊在哪，由於這兩個部分大家比較熟悉，加上內容也比較複雜，所以這次挑戰就暫且不談。

未來幾天我們主要會聊到的內容是定義資料、建立 Baseline、標注與處理資料 (包含資料收集、標注、統一格式)。
以上就是資料部分的主軸啦，那麼明天就讓我們從第一步的定義資料開始討論吧!

參考資料

[Day 15] ML 實驗管理 — 翻開覆蓋的陷阱卡~ 記帳小本本!

[Day 17] 定義資料 — 講清楚很難嗎?

系列文

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ) 共 30 篇

目錄

RSS系列文訂閱系列文

18 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js