Being human means having doubts and yet still continuing on your path. — Paulo Coelho
在 [Day 11] 建立 Baseline — 開啟機器學習專案的第一步 的時候,我們學到了對使用非結構化資料的任務來說,HLP 是很好的 Baseline,而其主要用途為估計 Bayes/Irreducible error 以幫助執行錯誤分析與安排優先順序。
但那時候沒有說的是這只限定於 Ground Truth Label 的定義是客觀的時候 (例如實驗結果)。
如果作為衡量 HLP 基準的 Ground Truth Label 為另一個人所定義的,此時得到的 HLP 其實只是在比較兩個人的共識程度而已:
為了補足之前挖的坑,今天我們就來徹底解析 HLP 吧!
除了作為 Baseline 以外,HLP 的其他用途如下:
因為 Ground Truth Label 其實很常只是另一個標註者的意見,所以當目標是建立實際有用的系統時,比起打敗 HLP,提昇 HLP 會更有幫助,而藉由增加標註一致性,除了能提升 HLP 以外,最終也能增加模型表現,例如下圖為標註產品是否有刮痕的案例,可以看到使用刮痕長度來清楚定義標註指南,即可將 HLP 提升至 100%:
總的來說,HLP 在很多應用都很重要,它可以作為很有用的指標,但要注意以下幾點:
雖然上面的討論都著重在非結構化資料,但在需要由人類進行標註的情況中,結構化資料也會遇到一樣的問題,這些例外情況如下:
說了這麼多,結論就是正確且良好的標註資料對於模型表現是至關重要的,明天我們就來談談資料的標註吧,雖然很想這麼說,但我們要先談的是關於收集資料的眉眉角角,那就明天見啦!