iT邦幫忙

2021 iThome 鐵人賽

DAY 20
0
AI & Data

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)系列 第 20

[Day 20] 資料標註 (1/2) — Forget about the price tag ♫

  • 分享至 

  • xImage
  •  

The only thing that never changes is that everything changes. ― Louis L'Amour

前言

因為世界不斷在變化,所以必須很熟悉模型對各種變化的敏感程度,才能在問題發生時快速應對。
換句話說,因為 Data/Concept drift 的關係,模型表現會逐漸下降,當發現 Ground truth 改變時,就得重新標註資料。
今天我們就先大略介紹一下與標註相關的基本知識,明天再來談談各種標註方法。

標註的成本

如果在收集或擴充資料時需要進行標注,此時存在三種選項:

  • 自己來 (In-house) — 請機器學習工程師 (MLEs) 標注的成本最高,但如果為了讓專案快點開始,只是做幾天倒還是可以的,這麼做還能幫助 MLEs 更瞭解資料。
  • 外包 (Outsourced) — 請專門標注的公司幫忙。
  • 眾包 (Crowdsourced) — 與外包的差別在於對某類型資料的專業度,如果標注需要專業判斷,找相對應的公司外包會比眾包更好。

另外根據專案性質還需考慮誰有資格作為標注者,才能確保標籤的品質,例如:

  • 語音辨識:任何能流暢使用該語言的人都可以。
  • 產線檢測、醫療影像分析:領域專家 (SME)。
  • 推薦系統:或許不可能標得好,畢竟喜好因人而異。

除了標註的成本以外,我們還得設想以下現實面的問題,才能幫助我們更有效率的擴充資料:

  • 錯誤的預測在商業上的影響不一
    例如自駕車突然煞車可能後果不堪設想,但紅燈停久一點倒是還好,因此在設計監控時要特別著重影響較大的錯誤。
  • 資料通常不會是你想要的
    礙於現實,有時候就只能收集到這些資料,只能想辦法處理它。
  • 模型的目標通常只是商業目標的代理
    只能在兩者之間妥協出雙方都能接受的目標。
  • 有些客戶體驗會很糟
    只能盡可能降低體驗很糟的客戶數量,了解他們是哪些人並試著改善他們的體驗。

不要一次把資料量增加超過 10 倍以上,因為改變太大會使得情況難以預測。

標註的難度

依照 Ground truth 改變的速度,會讓不同任務的標註有各種難易度:
labeling difficulty

而不同的難易度則有不同的方法,這部分就讓我們明天見囉!
/images/emoticon/emoticon29.gif

參考資料


上一篇
[Day 19] 收集資料 — 你要對人家負責啊!
下一篇
[Day 21] 資料標註 (2/2) — 各種標註方法
系列文
然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言