Day0: 相機姿態估計與 3D 重建簡介

2024 iThome 鐵人賽

DAY 1

AI/ ML & Data

3D 重建實戰：使用 2D 圖片做相機姿態估計與三維空間重建系列第 1 篇

16th鐵人賽

幕村琉德滑

團隊天堂製造

2024-09-15 08:47:34

205 瀏覽

分享至

假設有兩張拍攝同一張書桌，如果沒有GPS，我們要如何得知在現實中兩個拍攝的 3D 座標？答案是利用兩張照片中共同的資訊，譬如說我們可以透過同個物體在兩張照片中的位置，以此推斷照片拍攝時相機的相對位置。

筆者會在這系列中介紹電腦視覺中的這一類問題：多視圖幾何 (Multiview geometry)，他是 3D 電腦視覺中的重要基礎，包含如何估計兩張圖片之間的相機姿態 (camera pose estimation）（如下圖）

到相機的連續幀的估計（visual odometry），如下展示

還會介紹相機姿態的整體優化（Bundle Adjustment）和基本的 3D 重建。希望也可以涵蓋一些延伸例如：同時定位與地圖型建置（SLAM）。

此類問題在於電腦視覺（computer vision）、電腦圖學（computer graphic）、機器人（robotics）領域都是重要的問題，也有大量的應用，例如筆者的研究方向是視角合成（novel view synthesis），目標是要重建場景且渲染出任意視角的圖片，類似運動比賽中的子彈時間（如下展示），就需要依賴這類算法預先計算出相機的座標位置。

為了介紹這個些演算法，內容的一開始會先介紹電腦視覺的基本知識，例如：圖片（Image）、像素（pixel）、針孔相機（pinhole camera）、3D 空間的座標轉換等，如果讀者有已經有相關背景不妨跳過。

實作

本系列會帶領讀者一步一步的用 Python 和 opencv 的程式庫，實作出連續的相機姿態估計，也就是最基本的 visual odometry 和 3D 重建，並且以 matplotlib (2D) 和 vispy (3D) 作出簡單的視覺化，讓讀者可以親身體驗電腦視覺的魅力。另外，也會嘗試使用 numpy 自己簡單的寫出一些 opencv 的 API ，增進讀者（和筆者）對於視覺算法底層的了解。