iT邦幫忙

2023 iThome 鐵人賽

DAY 11
1
AI & Data

初次抓舉AI的世界系列 第 11

半監督式演算法 D4 - 2-step strategy

  • 分享至 

  • xImage
  •  

昨天分享了 PU Learning 的介紹,今天要來說說他的常見方法 — 2-step strategy

2-step strategy / Two-Step

2-step strategy 主要建立在以下兩個假設之上:

  1. 分離性(Separability):假設正例和負例數據點之間存在自然的分隔間隙,即它們在特徵空間中有明顯的區別
  2. 平滑性(Smoothness):對於相似的兩個數據點 x1 和 x2,它們被分類為正例的機率 P(y=1|x1) 和 P(y=1|x2) 也應該是相似的

步驟

  1. 識別出可靠的負例:從未標記的數據集中,我們首先試圖識別出一組可靠的負例樣本,也就是那些信心指數很高的負例數據
  2. 迭代構建一系列分類器:我們通過反復應用分類演算法,構建一系列分類器
    首先使用已知的正例和可靠的負例來訓練一個分類器
    然後使用這個分類器來對未標記的數據進行分類,將被分類為負例的部分添加到可靠的負例集中
    不斷重複這個過程,直到無法再找到新的負例為止
  3. 選擇最終的分類器:每次迭代都會生成一個新的分類器,我們可以從中選擇一個最終的分類器
    這個選擇的重點是:增加被分類為負例的未標記數據的數量,同時又可以確保正例仍然被正確分類

遵循啟發式(theory—heuristic)方法

Step1. 試圖從未標記數據中找到一些初始可靠的負例樣本
Step2. 試圖通過迭代不斷識別更多的負例樣本


上一篇
半監督式演算法 D3 - PU Learning 介紹
下一篇
非監督式演算法 D1 - K-Means Clustering
系列文
初次抓舉AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言