iT邦幫忙

2021 iThome 鐵人賽

DAY 18
0
AI & Data

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)系列 第 18

[Day 18] 再訪 HLP — 人(?)的表現是己欲立而立人

  • 分享至 

  • xImage
  •  

Being human means having doubts and yet still continuing on your path. — Paulo Coelho

前言

[Day 11] 建立 Baseline — 開啟機器學習專案的第一步 的時候,我們學到了對使用非結構化資料的任務來說,HLP 是很好的 Baseline,而其主要用途為估計 Bayes/Irreducible error 以幫助執行錯誤分析與安排優先順序。
但那時候沒有說的是這只限定於 Ground Truth Label 的定義是客觀的時候 (例如實驗結果)。
如果作為衡量 HLP 基準的 Ground Truth Label 為另一個人所定義的,此時得到的 HLP 其實只是在比較兩個人的共識程度而已:
HLP

為了補足之前挖的坑,今天我們就來徹底解析 HLP 吧!

HLP 的用途 The good and the bad

除了作為 Baseline 以外,HLP 的其他用途如下:

  • 在學術界,HLP 可以作為一個可敬的標竿,通打敗它通常都是很重大的突破,因此可以幫助論文發表。
  • 在產業界,老闆可能會一開始就要求 99% 準確率,HLP 可以幫助建立更合理的目標。
  • (不好的用途) "證明" ML 系統超越人類在某任務的能力以說服客戶買單。
    為什麼在一開始就說這是不好的用途呢,因為這可以作弊!
    在標註指南不夠清楚時,這類指標會給演算法不公平的優勢,舉例來說,假設有 70% 標註者使用一種風格、30% 使用另一種,兩種都很 OK,但在統計上就有了差距 (隨機挑選樣本時,不同風格被選取的機率不同)。
    如果 Ground Truth 僅僅是由職位比較高的標註者建立,此時衡量 HLP 得到的就是兩個標註者意見一致的機率,而這個機率其實只有 58% (0.7^2+0.3^2=0.58),而這就是演算法佔優的地方。
    因為演算法擅長捕捉統計資訊,它可能會發現某一種風格出現頻率較高,因此只使用該風格作為預測 (因為它知道這麼做有 70% 機率是對的)。
    也就是說,只是單純選用一種風格就具有超越 HLP 12% 的表現,但這樣真的有實質超越人類嗎?
    更糟的是,在評估表現時,就算演算法在其他類別的樣本出了大錯,也會被這類無關緊要的好表現平均掉,使得演算法可以看起來表現得比 HLP 好,但實際上卻輸出更差的預測,而我們卻無從察覺。
    就像平均測試準確度很高但不符合產品標準一樣,這種邏輯在實務上很少真的有用。

讓 HLP 再次偉大

因為 Ground Truth Label 其實很常只是另一個標註者的意見,所以當目標是建立實際有用的系統時,比起打敗 HLP,提昇 HLP 會更有幫助,而藉由增加標註一致性,除了能提升 HLP 以外,最終也能增加模型表現,例如下圖為標註產品是否有刮痕的案例,可以看到使用刮痕長度來清楚定義標註指南,即可將 HLP 提升至 100%:
clear definition

總的來說,HLP 在很多應用都很重要,它可以作為很有用的指標,但要注意以下幾點:

  • 當標籤 Y 的來源是人類時,HLP << 100% 有可能代表標註指南很模糊。
  • 改善標註一致性可以提升 HLP。
  • 雖然提昇 HLP 會讓 ML 更難打敗它,但更一致的標籤也會提昇 ML 的表現,因此更有可能使實際應用的表現受益。

雖然上面的討論都著重在非結構化資料,但在需要由人類進行標註的情況中,結構化資料也會遇到一樣的問題,這些例外情況如下:

  • 使用者 ID 合併:是否為同一個人?
  • 資安系統:根據網路流量判斷電腦是否被駭?
  • 交易預警系統:此筆交易是否為詐騙?
  • Pokemon GO:根據 GPS,玩家是否在車裡孵蛋?

說了這麼多,結論就是正確且良好的標註資料對於模型表現是至關重要的,明天我們就來談談資料的標註吧,雖然很想這麼說,但我們要先談的是關於收集資料的眉眉角角,那就明天見啦!
/images/emoticon/emoticon25.gif

參考資料


上一篇
[Day 17] 定義資料 — 講清楚很難嗎?
下一篇
[Day 19] 收集資料 — 你要對人家負責啊!
系列文
然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言