Day 04 : 以資料為中心的人工智慧 Data - Centric AI - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 4

AI & Data

從 AI 落地談 MLOps系列第 4 篇

Day 04 : 以資料為中心的人工智慧 Data - Centric AI

13th鐵人賽 mlops

威利斯

2021-09-04 00:07:32

3458 瀏覽

分享至

垃圾進垃圾出「 Garbage in, garbage out 」，不去檢視垃圾有多垃圾的情況下，用再好的模型都是垃圾!
Day 03 有提到 AI 數據競賽用於生產的任務的差別，吳恩達也舉辦了以資料為中心的 ML 競賽，改鎖定 ML 模型，參賽者以資料工程手段改進資料品質以增進訓練成果，與主流 Kaggle 數據競賽改 Model 調參不同，就是希望能把傳統「以模型為中心」的焦點目光轉移到更系統化的改進資料品質。今天來談以數據為中心的人工智慧 Data-Centric AI 的思辨:

圖片修改自 Data-centric AI: Real World Approaches

資料為中心與模型為中心的焦點比較

模型為中心的 AI（Model-centric AI）
- 使用擁有或給定的資料集，使模型的效果越佳越好，傳統的作法。
- 固定資料，持續提升 Algorithm/Model 最佳解。
資料為中心的 AI（Data-centric AI）
- 資料品質是參數，持續改進資料品質，並且允許複數模型的工作流程，這樣的過程是反覆的，而且是有系統的進行。
- 固定 Code ，持續提升資料品質。

資料為中心的 AI 可以做到的事情

針對特定子資料集/切片進行資料優化。
針對持續蒐集到的新資料進行錯誤分析及改進資料。
在錯誤分析與解釋 AI 甚至到改進局部預測能力特別有用。

資料為中心的 AI 工作流程持續循環

改進資料不是一次性的任務，而是持續循環的過程，資料為中心的 AI 工作流程為訓練資料、錯誤分析以決策、改進資料等 3 項任務持續循環。在此引用 DeepLearning.AI 發行的電子報圖片:
- - 圖片來源: Deeplearning.ai: the batch

一些實務的改進資料作法

在吳恩達 Deeplearning.ai 團隊在 Data-centric AI: Real World Approaches
直播中，提及了些有趣可以改善訓練成果的 6 個做法，在非結構資料(圖片、文字等)、資料量較小的情況下，改進資料品質相當有幫助:
- 方法1: 將連續性的標籤Ｙ呈現一致
  - X->y 如果是呈現隨機對應，譬如藥丸瑕疵檢測、手機刮痕瑕疵檢測，以刮痕長短為 x，瑕疵與否為 y ，本來預期刮痕超過一定長度會被判定為瑕疵，但因為是人為標註的結果，而且標註來自不同人、不同判定標準，判斷標準不一將影響訓練成果。
  - 此時可以將圖片透過刮痕長度 x 排序，並「決定」瑕疵 y 的判斷基準，經過梳理後會呈現邏輯回歸的分布狀態，比原來飄忽繁亂的標註改善許多，如下圖刮痕 2mm 的判讀可以修正。
- 方法2: 讓非連續性的標籤一致。
  - 檢查同個意義的標籤應要一致，像是 "people" 與 "human" 混用，另外對於性別盡量採用中性詞彙。
  - 使同個標註標的出現時，如2個以上的刮痕，標註數量一致、邊界大小一致。
- 方法3: 出現的未知標籤，定義他並且寫入指引。
  - 指引應包含說明、舉例、標註範例、讓人疑惑地類似狀況舉例。
- 方法4: 取捨模糊資料，資料越多不見得越好。
  - 非結構的模糊不清的資料，如果連人類專家都無法明確判斷，捨棄該筆資料也會改善訓練結果，但如果必須要預測模糊資料，則應設法有判斷指引。
- 方法5: 專注分析並改善有瑕疵的子資料集。
  - 改善有誤差的子資料集，可以讓整體預測準確率上升。