在建築領域,蒐集大量且品質一致的標註圖紙並不容易,主要因為產業特性涉及智慧財產權,資料流通與交換相當有限。
因此,本文引用論文所採用的Cubicase5K案例與本系列42 張小樣本的測試案例進行對照,並且來分析資料集規模與資料增強對辨識任務的實務影響。
上一篇我們已將模型作了一次的驗證,但由於本系列僅有42 張資料集,是屬於極小樣本,需要特別留意泛化的陷阱。以同樣的資料集,我再試以本地運算驗證為例,並將結果進行對照,:
運行環境 | Images (val) | Instances (val) | Box(P) | Recall(R) | mAP50 | mAP50-95 |
---|---|---|---|---|---|---|
Colab | 3 | 21 | 0.682 | 0.619 | 0.741 | 0.291 |
本地端 | 3 | 21 | 0.682 | 0.286 | 0.538 | 0.324 |
從上表可以發現,雖然同一組模型與資料集,在Colab驗證時召回率高達0.619,卻在本地驗證時僅有0.286,單次高分並不代表模型具備真正的泛化能力或實務可用性,因為很可能是巧合性的預測到電腦較熟悉的題目。因此,若想真實應用於產業上,仍應以大樣本、多次驗證為主,避免模型預測不佳,以致數據失準。
CubiCasa5K數據集源自:https://zenodo.org/records/2613548
這個資料集主要是由芬蘭地區的房地產行銷資料轉換而成,當初為研究自動平面圖識別與生成而建置的大型數據集,其共有5,000張圖像。
以下引用《應用圖像識別及相似圖神經網路於建築物步行距離檢討之研究,2024》論文之相關實驗數據:
在論文裡有100張(表3.6)和6440張(表4.7) 的兩種測試(物件包含門與樓梯),從比較中可以明顯觀察到資料集規模對模型效能的影響:
資料集規模 | Images (val) | Instances (val) | Box(P) | Recall(R) | mAP50 | mAP50-95 |
---|---|---|---|---|---|---|
100張 | 10 | 111 | 0.621 | 0.604 | 0.613 | 0.508 |
6440張(增強後) | 1288 | 8924 | 0.876 | 0.854 | 0.883 | 0.738 |
從上表可以發現,當資料集由100張擴充到6440張(含資料增強),模型在各項指標都有明顯提升,因此,資料集的規模也是影響AI模型,能否穩定且實際應用於BIM自動建模的核心關鍵之一。
除了擴充資料集規模外,資料增強技術同樣是提升模型泛化能力的關鍵。如例如CubiCasa5K原始原始100張的標註分布極度不均(如門與樓梯數量差距大),導致部分類別辨識精度偏低。
因此,研究特別針對門洞、推拉門與樓梯類型,額外增加1,440張特徵圖,也顯著提升了模型對資料量偏少的物件辨識能力。
本系列同樣透過資料增強,將18張原圖擴充為42張資料集,這也顯示資料增強對AI建築圖辨識有相當地重要性。
今天從實際案例成果的對照,進一步瞭解資料集規模與資料增強對AI模型的重要性。回顧至今,我們也從Day6~Day11完整走過YOLO物件偵測的流程,明天開始我們將進入新的章節,一起繼續探索OCR於建築領域的應用吧!