2025 iThome 鐵人賽

DAY 14

AI & Data

AI圖像辨識輔助的BIM資料流自動化流程系列第 14 篇

Day14：資料結構化與欄位對應實踐

17th鐵人賽資料結構 json pandas excel

Yi-Ping, Fang

2025-08-14 09:36:11

269 瀏覽

分享至

　　上一篇實作PaddleOCR的辨識成果可以發現，一行一行雜亂無序的資料是難以進行分析的。今天，我們將實作規劃出OCR結構化資料所需的關鍵欄位，使每一個項目在資料標準化及自動化流程中都有其功能，以利進行後續的分類、詞庫比對與分析。

14.1. 資料結構欄位設計

　　為了能夠定位出原本文字辨識框的位置點、作為後續語意判斷依據，我們會需要以下這些基本資訊：

檔名：記錄資料來源，便於批次管理及分析追蹤。
文字內容：為進一步比對詞庫或自動分類的重要依據。
信心分數：協助後續篩選高品質辨識結果。
中心點座標：用於分群與物件定位，支援空間歸屬判斷。
左上角/右下角座標：完整保留物件框線資訊，有利幾何運算與圖面區塊分割。

14.2. 資料結構化步驟

　　我們在Day12操作流程的Step3中，已經有將文字辨識框的中心點資訊同步下載為json檔，以下的步驟即是匯入json資料格式後，解析計算為上述資料結構列表：

Step1：首先，上傳 OCR JSON。

# 1. 上傳 OCR JSON
from google.colab import files
import json

uploaded = files.upload()

json_files = list(uploaded.keys())
print("已上傳：", json_files)

Step2：處理轉換（中心點、左上、右下座標）。

# 2. 處理轉換（中心點、左上、右下座標）
import pandas as pd

all_data = []

for json_file in json_files:
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
        for obj in data:
            text = obj.get('text', '')
            box = obj.get('box', [])
            center = obj.get('center', [None, None])
            confidence = obj.get('confidence', None)

            # 取左上與右下
            if box and len(box) == 4:
                x1, y1 = box[0]
                x2, y2 = box[2]
            else:
                x1 = y1 = x2 = y2 = None

            all_data.append({
                "檔名": json_file,
                "文字": text,
                "信心分數": confidence,
                "中心點_x": center[0],
                "中心點_y": center[1],
                "左上_x": x1,
                "左上_y": y1,
                "右下_x": x2,
                "右下_y": y2
            })

df = pd.DataFrame(all_data)
df.head(10) # 預覽前10筆

Step3：下載檔案。

# 3. 下載檔案
df.to_excel("OCR標註標準化表格.xlsx", index=False) # 匯出成 Excel
from google.colab import files
files.download("OCR標註標準化表格.xlsx")

圖14.1 文字資料結構化示例

14.3. 結語

　　今天我們將原本一行一行文字轉化為具有位置點資訊的資料。下一篇，我們將更進階的來處理文字語意的部分，明天見！

Day13：文字辨識測試與常見誤判分析

Day15：文字辨識後處理與分群校正

系列文

AI圖像辨識輔助的BIM資料流自動化流程共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19867 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙