[Day6] 半監督式學習：結合監督與非監督的力量

16th鐵人賽半監督式學習機器學習人工智慧 ai

arbin

團隊NUTC imac

2024-09-14 00:31:12

1458 瀏覽

分享至

Day6 半監督式學習

前言

在前幾天我們提到過監督式學習及非監督式學習，也都有提到過他們各自的優點及缺點，那這時候我們可以想想，如果可以將兩個結合起來是不是可以表現的更好勒?讓我一起往下面得文章看下去吧!!

半監督式學習是什麼

半監督式學習 (Semi-Supervised Learning) 是一種機器學習方法，介於監督式學習和無監督式學習之間。它利用了監督式學習的特性(全部資料有標籤)和非監督式學習的特行(全部資料沒有標籤)的結合來改進模型的學習效果。因為通常有標籤的資料的獲取成本較高，而沒有標籤的資料的獲取相對容易。因此，半監督式學習能夠充分利用大量沒有標籤的資料來提高模型的性能，尤其是在有標籤的資料稀缺的情況下。

工作原理

半監督式學習利用少量有標籤的資料和大量沒有標籤的資料進行訓練。其基本思路是首先利用有標籤的資料來建立初步模型，然後利用沒有標籤的資料進行模型的改進。這種方法可以通過以下幾種策略來實現：

自我訓練 (Self-Training)：
- 方法：首先使用有標籤的資料訓練初步模型，然後用這個模型對沒有標籤的資料進行預測。將高置信度的預測結果添加到有標籤的資料集中，並重新訓練模型。
- 優點：可以增加有效的有標籤的資料，改善模型性能。
- 缺點：如果初步模型的預測不準確，可能會引入錯誤的有標籤的資料。
協同訓練 (Co-Training)：
- 方法：將特徵空間分為兩個不同的視圖，分別用來訓練兩個模型。這兩個模型用彼此的預測結果來擴充有標籤的資料。
- 優點：利用多種特徵視圖可以提高模型的泛化能力。
- 缺點：需要特徵空間具有可分性，這在某些問題中可能不成立。
生成模型 (Generative Models)：
- 方法：使用生成模型（如變分自編碼器 VAE 或生成對抗網絡 GAN）來建模數據的分佈。這些模型可以通過學習數據的分佈來改善有標籤的資料的學習。
- 優點：可以更好地理解數據的內在結構。
- 缺點：模型訓練可能比較複雜，且需要大量計算資源。
圖形模型 (Graph-Based Models)：
- 方法：將數據點建模為圖中的節點，邊表示數據點之間的相似性。有標籤的資料提供了圖中某些節點的真實標籤，然後利用圖的結構來傳播這些標籤到沒有標籤的資料。
- 優點：能夠充分利用數據點之間的關聯性。
- 缺點：需要設計合理的圖結構和相似性度量。

優勢與挑戰

優勢
- 提高模型效能：利用大量沒有標籤的資料可以顯著提高模型的性能。
- 減少標註成本：降低對大量有標籤的資料的需求，從而降低數據準備成本。
挑戰
- 錯誤標註問題：不正確的有標籤的資料可能會對模型性能產生負面影響。
- 計算資源需求：某些半監督式學習方法，如生成模型，可能需要大量的計算資源和時間來訓練。

Self-Training是什麼

在眾多的半監督學習方法中，Self-Training 是一種經典的技術。它基於模型的自我改進，不斷利用模型本身的預測結果來增強學習效果，在半監督式學習中，Self-Training 類的方法雖然常見，但存在一些局限性，特別是需要符合 Low-Density Separation 假設才能有效。這意味著模型能夠在低密度區域（數據點較少的區域）做出較為準確的分類。然而，實際應用中很多任務無法完全符合這一假設，因此 Self-Training 可能並不總是適用。

那什麼又是Low-Density Separation呢?
- Low-Density Separation(低密度分離假設) 是 Self-Training 和許多其他半監督學習方法的理論基礎。該假設認為，在資料的特徵空間中，不同類別的數據點應該集中在密集區域，而類別邊界應該位於數據密度較低的區域，這樣分類器才能更好地區分不同類別。
具體來說，Low-Density Separation 假設要求：
1. 類別內的數據點應該聚集在密度較高的區域，這樣能讓分類器清楚識別出不同類別的模式。
2. 類別邊界應該位於低密度區域，即數據點較少的區域，這樣分類器可以更準確地劃分數據，並避免在類別邊界處誤判。
  在這種情況下，Self-Training 可以有效地利用未標籤數據：當模型預測的樣本處於低密度區域時，這些預測通常具有較高的置信度，因此這些樣本的標籤可以較為可靠地添加到有標籤數據集中。隨著迭代過程的進行，模型會逐漸改善對無標籤數據的預測準確度。