經過了 30 天的探索,我們從傳統電腦視覺開始,一路學習到最近幾年的架構。在鐵人賽最後一天,簡單介紹一下我們未提及但在現在相當重要的議題。
我們昨天學習的 NeRF,就是神經渲染 (neural rendering) 的典型代表。它使用深度學習模型來生成和操控場景,而不是依賴傳統的、基於物理的渲染管線。而光線追蹤 (ray tracing) 則是模擬光線物理傳播路徑的技術,能夠產生最逼真的陰影、反射和折射效果。過去,這項技術只用於電影特效,因為渲染一幀需要數小時。
現代的遊戲顯卡內置了專門用於加速光線追蹤計算的硬體核心。而研究人員正在將 AI 與光線追蹤結合。例如,使用神經網路來去噪光線追蹤的結果。傳統光線追蹤為了得到乾淨的圖像,需要為每個像素投射成百上千條光線。而 AI 輔助的方法,可能只需要投射幾十條光線,得到一張充滿噪點的圖像,然後讓一個訓練好的 AI 模型(類似我們學過的去噪自編碼器)快速地腦補出乾淨、真實的最終畫面,從而實現了即時的光線追蹤。
如 DLSS、FSR、XeSS 等,在不犧牲太多畫質的前提下,大幅提升遊戲的 FPS。
工作流程大致如下
顯卡首先以一個較低的解析度(例如 1080p)來渲染遊戲畫面,這極大地減輕了計算負擔。
然後,一個深度學習模型(通常是類似 U-Net 的 CNN 架構)會接收這個低解析度的圖像,以及前幾幀的運動向量 (motion vector) 等資訊。
這個 AI 模型會智慧地放大這張圖片到你的目標解析度(例如 4K)。它不是簡單的插值放大,而是利用其從大量高低解析度圖像對中學到的知識,重建出高解析度畫面中本應存在的細節。
幀生成等更新的技術更進一步,會直接分析連續的兩幀畫面和運動向量,然後在中間生成一個全新的、不存在的「中間幀」,從而讓幀率翻倍。
如果說 NeRF 是用一個 MLP 來記住整個場景,那麼 2023 年的 3D 高斯潑濺 (3D Gaussian Splatting) 則提供了一種全新的、兼具照片級真實感和超高速渲染能力的場景表示方法。
它不再使用光線投射。它將一個三維場景,表示為數百萬個三維高斯橢球的集合。每個高斯橢球都帶有位置、形狀(共變異數矩陣)、顏色和不透明度等屬性。在渲染時,GPU 會將這些三維高斯橢球,極其高效地潑濺 (splatting) 到二維的螢幕畫面上,並進行 alpha blending,形成最終的圖像。其訓練過程比 NeRF 快得多,渲染速度更是可以達到驚人的數百 FPS,實現了真正的即時自由視角漫遊。
這是電腦視覺與機器人學結合的終極目標。我們不再滿足於讓 AI 理解靜態的圖片或影片,而是要讓它在一個 3D 虛擬環境中,像人類一樣透過互動來學習,從而構建出一個關於世界如何運作的內部心智模型 (world model)。
工作流程如下
接收多模態的輸入(視覺、語言指令、物理感測器等)。
在一個模擬器(或真實世界)中執行動作。
觀察動作產生的後果。
使用一個巨大的 Transformer 或擴散模型,來預測「如果我採取某個動作,世界在下一刻會變成什麼樣」。
我們已經能生成逼真的 2D 圖片和 3D 場景,那麼下一個維度自然就是時間。生成式 4D 和影片生成技術(如 OpenAI 的 Sora、Google 的 Lumiere、Runway 的 Gen-2),旨在根據文字描述,直接生成一段長時程、高畫質、邏輯連貫的影片。
這些模型通常基於擴散模型或 Transformer 架構。它們將影片視為一系列連續的圖像幀(或潛在空間中的 Patch),並在時空維度上進行學習。
三十天的旅程,我們從一個像素點出發,最終抵達了AI視覺技術的最前沿。回顧這段路,我們不僅掌握了從傳統到現代的電腦視覺核心演算法,更重要的是,我們見證了這個領域的邊界正在以前所未有的速度擴張。
這些技術的共同點,是深度學習正成為一種通用的、強大的模擬器與生成器,它不僅能理解世界,更在學習創造和預測世界。我們30天所學的知識——卷積的特徵提取、Transformer的全局關聯、擴散模型的生成能力——正是構成這一切未來技術的基石。