2021 iThome 鐵人賽

DAY 20

0

AI & Data

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)系列第 20 篇

[Day 20] 資料標註 (1/2) — Forget about the price tag ♫

13th鐵人賽 machine learning mlops

2021-10-05 21:08:00

1909 瀏覽

分享至

The only thing that never changes is that everything changes. ― Louis L'Amour

前言

因為世界不斷在變化，所以必須很熟悉模型對各種變化的敏感程度，才能在問題發生時快速應對。
換句話說，因為 Data/Concept drift 的關係，模型表現會逐漸下降，當發現 Ground truth 改變時，就得重新標註資料。
今天我們就先大略介紹一下與標註相關的基本知識，明天再來談談各種標註方法。

標註的成本

如果在收集或擴充資料時需要進行標注，此時存在三種選項：

自己來 (In-house) — 請機器學習工程師 (MLEs) 標注的成本最高，但如果為了讓專案快點開始，只是做幾天倒還是可以的，這麼做還能幫助 MLEs 更瞭解資料。
外包 (Outsourced) — 請專門標注的公司幫忙。
眾包 (Crowdsourced) — 與外包的差別在於對某類型資料的專業度，如果標注需要專業判斷，找相對應的公司外包會比眾包更好。

另外根據專案性質還需考慮誰有資格作為標注者，才能確保標籤的品質，例如：

語音辨識：任何能流暢使用該語言的人都可以。
產線檢測、醫療影像分析：領域專家 (SME)。
推薦系統：或許不可能標得好，畢竟喜好因人而異。

除了標註的成本以外，我們還得設想以下現實面的問題，才能幫助我們更有效率的擴充資料：

錯誤的預測在商業上的影響不一
例如自駕車突然煞車可能後果不堪設想，但紅燈停久一點倒是還好，因此在設計監控時要特別著重影響較大的錯誤。
資料通常不會是你想要的
礙於現實，有時候就只能收集到這些資料，只能想辦法處理它。
模型的目標通常只是商業目標的代理
只能在兩者之間妥協出雙方都能接受的目標。
有些客戶體驗會很糟
只能盡可能降低體驗很糟的客戶數量，了解他們是哪些人並試著改善他們的體驗。

不要一次把資料量增加超過 10 倍以上，因為改變太大會使得情況難以預測。

標註的難度

依照 Ground truth 改變的速度，會讓不同任務的標註有各種難易度：
labeling difficulty

而不同的難易度則有不同的方法，這部分就讓我們明天見囉!

參考資料

[Day 19] 收集資料 — 你要對人家負責啊!

[Day 21] 資料標註 (2/2) — 各種標註方法

系列文

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ) 共 30 篇

目錄

RSS系列文訂閱系列文

18 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

52 組

團體組數

2 組

累計文章數

38 篇

最後報名日

9/15

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

ChatGPT Business & Codex 如何從零開始?

IT邦幫忙