iT邦幫忙

2021 iThome 鐵人賽

DAY 16
0
AI & Data

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)系列 第 16

[Day 16] Data! — 資料就是我的超能力

  • 分享至 

  • xImage
  •  

Data is the hardest part of ML and the most important piece to get right...
Broken data is the most common cause of problems in production ML systems. — Uber

前言

Software 2.0 的概念中,資料為機器學習的 第一類公民(First-class citizen),因為一切都始於資料,換句話說,模型並不是魔法,有意義的資料才是關鍵。
那什麼才叫有意義的資料呢? 其特質如下:

  • 最大化具有預測性的內容 (Predictive content)。
  • 最小化沒幫助的資料 (Non-informative data)。
  • 訓練集與實際資料的特徵空間涵蓋範圍盡可能一致。

而為了使資料的品質提升,我們就得建立良好的 Data Pipeline。

Data Pipeline

前面提到過 ML Pipeline 是 ML 產品的核心,它指的是實作整個機器學習產品的軟體架構,包含自動化、監控與維護整個 ML 工作流程,也是 MLOps 的關鍵元素。
依照 ML 產品的生命週期可以將 Data Pipeline 需要進行的工作歸納為以下幾點:
data pipeline
*圖片修改自 MLEP — Importance of Data

經由這個流程,我們希望能達到以下目標:

  • 標籤 (Labeling):標籤正確性與一致性。
  • 特徵空間涵蓋範圍 (Feature space coverage):確保訓練集涵蓋的特徵空間與模型部署後會接收到的實際資料相同。
  • 最低限度的維數 (Minimal dimensionality):盡可能降低特徵向量的維度,以最佳化系統表現。
  • 最大程度的資料預測能力 (Maximum predictive data):在降低維度的同時盡可能保持或加強資料所包含的有用資訊。
  • 公平性 (Fairness):必須衡量資料與模型的公平性。
  • 極端條件 (Rare conditions):罕見類別的表現不能差。

其中特徵工程 (Feature engineering) 可以最大化資料的預測性,而特徵選擇 (Feature selection) 則可以衡量具有預測性的資訊在哪,由於這兩個部分大家比較熟悉,加上內容也比較複雜,所以這次挑戰就暫且不談。

未來幾天我們主要會聊到的內容是定義資料、建立 Baseline、標注與處理資料 (包含資料收集、標注、統一格式)。
以上就是資料部分的主軸啦,那麼明天就讓我們從第一步的定義資料開始討論吧!
/images/emoticon/emoticon08.gif

參考資料


上一篇
[Day 15] ML 實驗管理 — 翻開覆蓋的陷阱卡~ 記帳小本本!
下一篇
[Day 17] 定義資料 — 講清楚很難嗎?
系列文
然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言