對於人類來說,大腦具有極佳獲取和識別的能力。特別是學習新的事物,人們可以根據少量的觀察快速學會潛在的邏輯,然後應用於其它未知的概念。而現今機器學習已在不同應用領域中逐漸發展成熟,有著與人類近似、甚至超越的人類的能力表現,例如網絡搜索、垃圾郵件檢測、字幕生成和語音和圖像識別等。
然而,這些機器學習演算法往往受在少量資料時卻無法有良好的表現。這與人類的行為極不相同。在實際的情況中,很多情境要能蒐集足夠的資料也需要大量的時間與人力成本,也因此大幅提高導入機器學習模型的門檻。如何讓模型能處理這些數量較少且涵蓋到未知的類別就變得極為重要。
一次性學習方法(one-shot learning)可以透過開發特定領域的特徵或推理程序來直接解決資料不足的問題,這些特徵或推理程序對目標任務具有較佳的推論能力。因此,包含這些方法的系統趨向於在類似情況下表現出色,但未能提供可應用於其他類型問題的通用解決方法。在此 Bromley 與 LeCun 等人提出了一種限制性的輸入結構,同時自動找出不同類別間的相異特徵,來確保模型能夠從少數資料中找出通用區別的特徵。此方法是建立在深度學習框架之上,該框架可以使用多層非線性來做輸入特徵空間的變換,同時使用大量數據來防止過度擬合。
一般來說,基於監督度式學習的方法建立孿生神經網絡來學習圖像辨識時, 只需要重用該網絡的特徵進行一次性學習,就無需任何重新訓練。以學習字符圖像辨識為例,大型孿生卷積神經網絡能透過少量資料學習通用的圖像特徵,同時可以用於推論是否為未曾出現的類別。即使這些未知類型的圖像資料很少。此外,在訓練階段只需要使用一般常見的優化方法即可。這樣一來也減少的調整模型所需的人力時間成本。
孿生網路由最初是用來解決簽名驗證問題。在孿生網絡只需要同時輸入相異類別或相同類別來進行訓練,而網路最後是由能量評估函數作為連接。此能量評估函數是計算來自於兩個輸入所找出特徵之間的距離程度(度量)。在此網絡之間的參數是相互綁定的。而權重綁定保證兩個極其相似的圖像會由各自的網絡映射到非常相近的特徵空間位置。相反的,當輸入相異類別圖像時,函數則會表現出兩者有極大的距離。孿生網路使用了雙重項的對比能量函數來降低相同圖像對的度量結果,同時增加相異類別圖像對的度量。
雖然卷積層在計算上比標準非線性的計算成本會較為高昂,但局部連通性可以大大減少模型中的參數數量,這在本質上提供了正則化的功能來減少過適性。此外,卷積操作用於這些網絡具有直接的過濾解釋,其中每個特徵圖都與輸入特徵進行卷積以將模式識別為像素組。因此,每個卷積層的輸出對應於重要的原始輸入空間中的空間特徵,並提供一些對簡單變換的強健能力。