OpenAI在2021年提出CLIP,為跨模態模型在訓練方式和應用上帶來了重大的突破,包括:
訓練範式的創新:對比學習(Contrastive Learning)
早期的VLM採用掩碼模型(Masked Modeling)的訓練方式,它們會遮蔽部分文字或圖像,然後讓模型去預測被遮蔽的內容,這種方法需要大量的標註資料。
CLIP使用對比學習,它同時訓練一個圖像編碼器和一個文字編碼器,目標是讓「正確配對」的圖片和文字(例如,一張狗的照片和「一隻狗」的文字)在共同的嵌入空間中,其向量距離盡可能接近,而「不正確配對」的距離則盡可能遠。這種方式的訓練資料利用現成在網際網路發展後,大量公開在網頁上成對的圖片及其圖片描述,大量地減少傳統昂貴的大型標記數據集的需求,極大地擴展了訓練資料的來源。
CLIP具有零樣本(Zero-shot)學習能力
傳統的視覺模型在訓練後,只能識別那些在訓練集中出現過的特定類別。CLIP 不需要針對特定下游任務進行微調,只要輸入描述文字即可做分類。例:要做「狗 vs 貓」分類,直接提供文字 prompt: "a photo of a dog", "a photo of a cat",模型即可用來判斷影像屬於哪一類
研究人員也發現可以透過給予模型不同的文字「提示」(prompts),來引導它執行各種任務,而不需要重新訓練模型,這種利用自然語言來控制AI模型行為的方式,促成了後續許多生成式AI模型的發展,例如DALL-E和Stable Diffusion。
CLIP與早期VLM模型有顯著不同,在VLM發展史上被視為一個分水嶺,開啟了新一代模型的可能性,將VLM從一個需要大量標註數據和特定任務微調的學術研究領域,轉變為一個能處理通用、開放式任務的強大工具,CLIP因而被視為是現代VLM的開創性模型。
CLIP 主要由兩個部分組成:
這兩個編碼器最後都輸出到同一個向量空間,讓文字和影像可以直接比較。
雖然 CLIP 開啟了 VLM 的時代,但它也有一些限制與缺點
補充:
前面提到的早期的VLM,從Transformer架構的角度來看,有兩個在2019年發表的代表性模型,通常被認為是現代VLM的先驅:
它們結合了視覺(圖片)和語言(文字)的資訊,並利用自注意力機制(self-attention mechanism)來處理這兩種不同型態的資料,它們就像是文本領域中的BERT一樣,學會了理解圖像和文字之間的關係,並能夠執行多種任務,這奠定了後來VLM的發展基礎。