Day23: 尺度缺失 (Scale Ambiguity)

2024 iThome 鐵人賽

DAY 24

AI/ ML & Data

3D 重建實戰：使用 2D 圖片做相機姿態估計與三維空間重建系列第 24 篇

16th鐵人賽

幕村琉德滑

團隊天堂製造

2024-10-08 23:33:41

500 瀏覽

分享至

在使用 RGB 圖片做相機姿態估計時，有一個重要的問題，那就是尺度缺失 (Scale Ambiguity)，我們在前面為了簡化問題故意忽略不談，現在要來好好討論一下。

圖片是來自於 3D 空間中的物體投影的 2D 的平面上，在這過程中，會失去一個重要的資訊：圖片中物體在 3D 空間的深度（與相機之間的距離），我們只知道該物體所在的方向，卻不知道他真實世界的距離，因此喪失了尺度 (scale)。

scale_ambiguity

如上圖所示，由於我們不知道電腦螢幕與相機之間的距離，它有可能在這個方向上任何一個位子。當然距離越遠的話，他的真實世界大小就會越大，這樣才可以投影到圖片上的大小一樣。

讀者也可以想像一個簡單的例子，假設有人做了一個與真實的一模一樣的迷你房子模型，只要相機的拍攝的恰當，就可以得到兩張一模一樣的圖片（真實房子 vs 迷你屋），但是這圖片中的物體大小是不一樣的，因為我們不知道相機與模型之間的距離。

也因為如此，如果只是使用 RGB 圖片做相機姿態估計或 3D 重建，我們無法得知物體的真實大小，即使是多張圖片或是影片也是如此（想想那個迷你屋的例子）。這也是為什麼在 AR 或 VR 領域中，我們需要額外的資訊，例如深度圖 (Depth Map) 或是其他的感測器，例如 LiDAR、Kinect 等等，來解決尺度缺失的問題。

呼應前面談到對極幾何的的部分：這也就是為什麼 Essential Matrix 雖然是 3x3 的矩陣，但是卻只有 8 個自由度，因為我們無法得知物體的真實大小，因此我們無法得知 Essential Matrix 中的尺度。從數學式子上來說，隨意乘上一個數 latex 與 latex 的結果是相同的。