iT邦幫忙

2021 iThome 鐵人賽

DAY 4
0
AI & Data

從 AI 落地談 MLOps系列 第 4

Day 04 : 以資料為中心的人工智慧 Data - Centric AI

  • 垃圾進垃圾出「 Garbage in, garbage out 」,不去檢視垃圾有多垃圾的情況下,用再好的模型都是垃圾!/images/emoticon/emoticon40.gif
  • Day 03 有提到 AI 數據競賽用於生產的任務的差別,吳恩達也舉辦了以資料為中心的 ML 競賽,改鎖定 ML 模型,參賽者以資料工程手段改進資料品質以增進訓練成果,與主流 Kaggle 數據競賽改 Model 調參不同,就是希望能把傳統「以模型為中心」的焦點目光轉移到更系統化的改進資料品質。今天來談以數據為中心的人工智慧 Data-Centric AI 的思辨:

圖片修改自 Data-centric AI: Real World Approaches

資料為中心與模型為中心的焦點比較

  • 模型為中心的 AI(Model-centric AI)
    • 使用擁有或給定的資料集,使模型的效果越佳越好,傳統的作法。
    • 固定資料,持續提升 Algorithm/Model 最佳解。
  • 資料為中心的 AI(Data-centric AI)
    • 資料品質是參數,持續改進資料品質,並且允許複數模型的工作流程,這樣的過程是反覆的,而且是有系統的進行。
    • 固定 Code ,持續提升資料品質。

資料為中心的 AI 可以做到的事情

  • 針對特定子資料集/切片進行資料優化。
  • 針對持續蒐集到的新資料進行錯誤分析及改進資料。
  • 在錯誤分析與解釋 AI 甚至到改進局部預測能力特別有用。

資料為中心的 AI 工作流程持續循環

一些實務的改進資料作法

  • 在吳恩達 Deeplearning.ai 團隊在 Data-centric AI: Real World Approaches
    直播中,提及了些有趣可以改善訓練成果的 6 個做法,在非結構資料(圖片、文字等)、資料量較小的情況下,改進資料品質相當有幫助:
    • 方法1: 將連續性的標籤Y呈現一致

      • X->y 如果是呈現隨機對應,譬如藥丸瑕疵檢測、手機刮痕瑕疵檢測,以刮痕長短為 x,瑕疵與否為 y ,本來預期刮痕超過一定長度會被判定為瑕疵,但因為是人為標註的結果,而且標註來自不同人、不同判定標準,判斷標準不一將影響訓練成果。
      • 此時可以將圖片透過刮痕長度 x 排序,並「決定」瑕疵 y 的判斷基準,經過梳理後會呈現邏輯回歸的分布狀態,比原來飄忽繁亂的標註改善許多,如下圖刮痕 2mm 的判讀可以修正。
    • 方法2: 讓非連續性的標籤一致。

      • 檢查同個意義的標籤應要一致,像是 "people" 與 "human" 混用,另外對於性別盡量採用中性詞彙。
      • 使同個標註標的出現時,如2個以上的刮痕,標註數量一致、邊界大小一致。
    • 方法3: 出現的未知標籤,定義他並且寫入指引。

      • 指引應包含說明、舉例、標註範例、讓人疑惑地類似狀況舉例。
    • 方法4: 取捨模糊資料,資料越多不見得越好。

      • 非結構的模糊不清的資料,如果連人類專家都無法明確判斷,捨棄該筆資料也會改善訓練結果,但如果必須要預測模糊資料,則應設法有判斷指引。
    • 方法5: 專注分析並改善有瑕疵的子資料集。

      • 改善有誤差的子資料集,可以讓整體預測準確率上升。

小結

  • 對於回頭檢視資料是用於生產的機械學習必須任務,實務上因為資料偏移、概念偏移造成的模型預測準確率下滑,可以設計觸法機制做自動化重新訓練。
  • 另外,對於資料偏斜的問題,可以細細檢視資料及,並且修改標註與預測結果,提供更中性、公平而非偏見的判斷與輸出。
  • 吳恩達倡議"以資料為中心的 AI ",揭示2021年機械學習更關注部署營運階段,反思面對資料的必要性。有幸能一同見證逐漸落地的情境,我們下篇見。

參考


上一篇
Day 03 : ML in Production 的挑戰
下一篇
Day 05 : ML 專案生命週期
系列文
從 AI 落地談 MLOps30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言