今天要介紹的學習叫做 PU Learning,是 Learning from Positive and Unlabeled Data 的意思,是半監督式學習的一個特殊子領域
先來上它的介紹 👇👇
主要用於處理當我們只知道部分數據是正例(也就是我們感興趣的目標),而其他數據則是未標記且沒有負例數據的情況,像是當負例數據難以獲得或者負例數據太過多變導致取得成本很高的時候
在這種情況下,PU Learning 會根據已知的正例和未標記的數據,來訓練一個二分類模型,然後根據特徵區分出正樣本和負樣本
那麼,什麼時候會需要 PU Learning 呢?
來舉個現實生活中使用機器學習的應用,
假設我們正在開發一個垃圾郵件過濾器,我們可能會有一些被明確標記為垃圾郵件的電子郵件,但我們無法取得所有使用者的所有電子郵件的標記,在這樣的情況下,透過使用 PU Learning ,就可以幫助我們使用已知的垃圾郵件(正例)和未知的電子郵件(未標記)來改進我們的模型,以更好地區分垃圾郵件和正常郵件
明天分享 PU Learning 的常見方法