The only thing that never changes is that everything changes. ― Louis L'Amour
因為世界不斷在變化,所以必須很熟悉模型對各種變化的敏感程度,才能在問題發生時快速應對。
換句話說,因為 Data/Concept drift 的關係,模型表現會逐漸下降,當發現 Ground truth 改變時,就得重新標註資料。
今天我們就先大略介紹一下與標註相關的基本知識,明天再來談談各種標註方法。
如果在收集或擴充資料時需要進行標注,此時存在三種選項:
另外根據專案性質還需考慮誰有資格作為標注者,才能確保標籤的品質,例如:
除了標註的成本以外,我們還得設想以下現實面的問題,才能幫助我們更有效率的擴充資料:
不要一次把資料量增加超過 10 倍以上,因為改變太大會使得情況難以預測。
依照 Ground truth 改變的速度,會讓不同任務的標註有各種難易度:
而不同的難易度則有不同的方法,這部分就讓我們明天見囉!