在使用 RGB 圖片做相機姿態估計時,有一個重要的問題,那就是尺度缺失 (Scale Ambiguity),我們在前面為了簡化問題故意忽略不談,現在要來好好討論一下。
圖片是來自於 3D 空間中的物體投影的 2D 的平面上,在這過程中,會失去一個重要的資訊:圖片中物體在 3D 空間的深度(與相機之間的距離),我們只知道該物體所在的方向,卻不知道他真實世界的距離,因此喪失了尺度 (scale)。
如上圖所示,由於我們不知道電腦螢幕與相機之間的距離,它有可能在這個方向上任何一個位子。當然距離越遠的話,他的真實世界大小就會越大,這樣才可以投影到圖片上的大小一樣。
讀者也可以想像一個簡單的例子,假設有人做了一個與真實的一模一樣的迷你房子模型,只要相機的拍攝的恰當,就可以得到兩張一模一樣的圖片(真實房子 vs 迷你屋),但是這圖片中的物體大小是不一樣的,因為我們不知道相機與模型之間的距離。
也因為如此,如果只是使用 RGB 圖片做相機姿態估計或 3D 重建,我們無法得知物體的真實大小,即使是多張圖片或是影片也是如此(想想那個迷你屋的例子)。這也是為什麼在 AR 或 VR 領域中,我們需要額外的資訊,例如深度圖 (Depth Map) 或是其他的感測器,例如 LiDAR、Kinect 等等,來解決尺度缺失的問題。
呼應前面談到對極幾何的的部分:這也就是為什麼 Essential Matrix 雖然是 3x3 的矩陣,但是卻只有 8 個自由度,因為我們無法得知物體的真實大小,因此我們無法得知 Essential Matrix 中的尺度。從數學式子上來說,隨意乘上一個數 與 的結果是相同的。