[Day 19] 收集資料 — 你要對人家負責啊!

13th鐵人賽 mlops machine learning

chihying

2021-10-04 20:44:54

1720 瀏覽

分享至

With data collection, ‘the sooner the better’ is always the best answer. – Marissa Mayer

前言

就像大家耳熟能詳的 GIGO 所闡述的概念一樣，我們收集來的訓練資料以及標註它們的方式直接影響了 ML 系統的最終輸出，而這與使用者體驗息息相關。
為了避免糟糕的資料選擇導致後續模型開發等步驟出師不利，甚至最終使得產品失敗，我們必須從一開始就計畫好如何收集高品質的資料，因此今天會說明以下要點：

了解使用者 (或應用) 並將需求轉譯成資料問題。
確保訓練資料的涵蓋範圍與實際上線資料一致，且資料飽含可幫助預測的信息。
對高品質資料的取得、儲存與監控負責任。

收集資料

收集資料時最重要的就是了解使用者，把他們的需求轉譯成資料問題 (Data Problem)，才不會浪費時間收集用不到的資料，以跑步路線推薦 app 為例：
首先要釐清使用者是誰？其需求為何？以及 ML 系統的目標為何？
Example Application: Suggesting Runs
而為了要把使用者需求轉譯為資料需求，可依序釐清：

資料是什麼？
以此例來說就可能是：
- 來自 app 的跑步資料
- 當地地理資料
- 人口資料
需要什麼特徵？
以此例來說就可能是：
- 跑者的人口資料
- 日期
- 跑步完成率
- 跑速
- 跑步距離與海拔變化
- 心率
需要的標籤為何？
以此例來說就可能是：
- 跑者是否接受 app 的建議
- 跑者對拒絕建議提供的意見
- 跑者對推薦的滿意度

最終收集的資料結果可能如下：
Example dataset
*圖片來源：People + AI Guidebook — Data Collection + Evaluation

另外對收集來的資料要負責任，這包含了紀錄來源、保障隱私以及避免歧視：

紀錄來源

資料可能的來源有很多，要負責任地紀錄清楚：
Source Data Responsibly

安全性

資料收集與管理不只與模型有關，更重要的是安全與隱私，前者是指確保個人資料 (Personally Identifiable Information) 安全的政策或方法，後者則是正確的使用、收集、保留、刪除與儲存這類資料。
其中確保資料安全的方法有：

讓使用者自行選擇哪些資料可以被收集。
確保資料不會在不經意間洩漏，例如顯示在確認畫面上。
遵守相關法規，例如 GDPR。

而透過以下方法則可以確保隱私：

Aggregation：將獨特的數值改成統計數值，例如把個人薪資改成平均薪資。
Redactio：移除某部分資料使其難以拼湊出全貌。

公平性

必須在公平、可靠、透明、可解釋間取得平衡，否則 ML 系統可能會讓使用者失望，例如：

Representational harm：增強或反映對某族群的刻板印象。
Opportunity denial：系統的預測對現實生活產生負面影響。
Disproportionate product failure：模型偏向對某族群輸出某類結果。
Harm by disadvantage：系統會給某類族群較不利的推論。

因此要時時注重公平性。

資料量，多少才夠?

當 AI 團隊與其他領域專家合作時，最常被問到的問題就是，要提供多少資料才行?
這時候通常都是依照 feature 數量來大致推估所需的資料量，但在電子報 Data-Centric AI Development, Part 3: Limit Data Collection Time 提出了另外一種想法 — 把「要花多久才能收集 m 個樣本？」改為「在 d 天內可以收集多少資料？」，也就是改執行以下訓練迴圈：
New iteration
這是因為首次訓練、錯誤分析的時間通常都不長，別因為收集資料延宕整體進度，盡快進入訓練模型的迴圈中才是王道，等資料真的不夠還有充足的時間再回頭收集就好。