Paper link | Note link | Code link | ICML 2023
這篇研究嘗試通過整合包括圖像在內的多模態資訊來開發一個具體化的語言模型。
本研究提出具體化語言模型,將真實世界的連續感應器模態直接整合進語言模型中,從而建立詞語與感知之間的聯繫。
儘管大型語言模型(LLMs)在各個領域展示了強大的推理能力,但在處理如計算機視覺和機器人等領域的實際問題時,往往有所不足。
通過利用跨模態能力,視覺語言模型可以提供更豐富的資訊來學習機器人的策略和可供性功能。
這項研究提出了具身語言模型,將具身代理的連續感測器模態輸入整合到語言模型中,使其能夠在現實場景中的順序決策中做出更具基礎性的推理。
PaLM-E 的主要架構思路是將連續的具身觀察(如影像、狀態估計或其他感測器模態)注入到預訓練語言模型的語言嵌入空間中。
輸入包括文本和(多個)連續觀察值。
這些觀察值對應的多模態標記與文本交錯排列,形成多模態句子。
輸出是模型自回歸生成的文本,這可能是問題的答案,或者是 PaLM-E 以文本形式生成的一系列應由機器人執行的決策。
這部分描述了 PaLM-E 中所整合的各種模態及其編碼器的設置方法。
他們研究了狀態估計向量和用於2D影像特徵的視覺變換器(ViTs)。
針對3D場景,使用了物體場景表示變換器(OSRT)。
除了代表輸入場景的全局編碼器,他們還考慮了物體中心的表示方法,這些方法將觀察值分解為代表場景中各個物體的標記。
在實驗部份,他們考慮了三種不同機器人具身環境中的多種機器人(移動)操作任務,在模擬環境和兩個不同的真實機器人上進行測試。
此外,他們還評估了 PaLM-E 在一般視覺語言任務(如視覺問答、圖像標註)以及已建立的語言建模任務中的表現。
下圖顯示了 PaLM-E-562B 能夠進行零樣本多模態連鎖推理。
下圖展示了一個機器人任務的樣本案例。
下圖展示了在模擬環境中的計劃任務結果。
下圖展示了在一般視覺語言任務中的結果。