IoT資料收集系統 - 處理百萬設備的即時數據洪流 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 20

Software Development

30個系統設計實戰：全端工程師的架構修煉系列第 20 篇

IoT資料收集系統 - 處理百萬設備的即時數據洪流

17th鐵人賽系統設計 iot資料收集系統

arthurtai

團隊等待阿毛參賽中

2025-09-27 14:20:36

144 瀏覽

分享至

想像一下，你正坐在智慧城市的控制中心，螢幕上顯示著來自十萬個感測器的即時數據——交通流量、空氣品質、電力消耗、水位監測。突然，系統檢測到某區域的異常震動模式，可能是地震前兆。在接下來的幾秒鐘內，系統必須分析數據、確認威脅、發出警報。

這就是現代IoT資料收集系統每天面對的挑戰：在海量數據中找到關鍵訊號，並在毫秒內做出反應。IoT系統看似只是「收集數據、存儲、分析」這麼簡單，但當設備數量從幾百個擴展到幾百萬個時，每個設計決策都會被無限放大。

一個錯誤的協議選擇可能導致網路癱瘓，一個不當的存儲策略可能讓成本失控，一個疏忽的安全漏洞可能讓整個城市的基礎設施暴露在風險中。今天，我們將深入探討如何設計一個能夠處理百萬級設備、每秒數百萬訊息的物聯網資料收集系統，從協議選擇到即時處理，從邊緣運算到異常檢測，一步步構建起現代物聯網的資料基礎設施。

場景定義與需求分析

業務場景描述

讓我們以一個智慧工廠為例。這個工廠有 50,000 個感測器，監測著生產線上的每個環節——溫度、壓力、振動、電流、產品品質。每個感測器每秒產生 1-10 個數據點，意味著系統需要處理每秒 50 萬到 500 萬個數據點。

更重要的是，這些數據不只是要收集和存儲。系統需要在毫秒內檢測異常（比如設備即將故障的徵兆），需要提供即時的生產線狀態儀表板，需要支援歷史數據分析來優化生產流程，還需要確保即使網路中斷，關鍵的安全監控也能繼續運作。

核心需求分析

功能性需求

數據收集能力

支援多種物聯網協議（MQTT、CoAP、HTTP、專有協議）
處理不同頻率的數據上報（從每秒到每小時）
支援批次上傳和即時串流
設備註冊與管理功能
韌體遠端更新（OTA）能力

數據處理功能

即時數據驗證與清洗
串流處理與複雜事件處理
時序數據聚合與降採樣
異常檢測與告警觸發
邊緣運算支援

數據存儲與查詢

高效能時序數據存儲
支援多維度查詢
歷史數據歸檔
數據生命週期管理

非功能性需求

效能要求

吞吐量：每秒處理 100 萬個數據點
延遲：端到端延遲 < 500ms（95 percentile）
並發連接：支援 10 萬個同時連接的設備

可用性要求

系統可用性：99.95% SLA
數據持久性：99.999999%（9 個 9）
故障恢復時間：< 5 分鐘

擴展性要求

水平擴展：從 1 萬設備擴展到 100 萬設備
彈性伸縮：根據負載自動調整資源
多區域部署支援

安全性要求

設備認證與授權
端到端數據加密
DDoS 攻擊防護
審計日誌與合規性

成本限制

每設備每月成本 < $0.5
存儲成本優化（冷熱數據分層）
頻寬使用優化

核心架構決策

識別關鍵問題

技術挑戰 1：協議選擇的權衡
物聯網設備的多樣性帶來了協議選擇的複雜性。工業設備可能使用 Modbus，智慧感測器偏好 MQTT，而資源受限的設備則需要 CoAP。錯誤的協議選擇會直接影響系統的效能、可靠性和電池壽命。

技術挑戰 2：海量數據的即時處理
當每秒有數百萬個數據點湧入時，傳統的請求-響應模式會徹底崩潰。系統需要採用串流處理架構，但如何在保證低延遲的同時處理複雜的業務邏輯，是一個巨大的挑戰。

技術挑戰 3：邊緣與雲端的協同
並非所有數據都需要上傳到雲端。邊緣運算可以減少延遲和頻寬成本，但如何設計邊緣與雲端的分工，如何處理斷網情況，如何保證數據一致性，都需要精心設計。

架構方案比較

維度	純雲端架構	純邊緣架構	混合架構
核心特點	所有處理在雲端	所有處理在本地	分層處理模式
優勢	集中管理、無限擴展	低延遲、離線運作	平衡效能與成本
劣勢	高延遲、頻寬成本高	管理複雜、擴展受限	架構複雜度高
適用場景	非即時應用	關鍵任務系統	大規模物聯網
複雜度	低	中	高
成本	高（頻寬）	高（硬體）	中等

決策思考框架

diagram1

系統演進路徑

第一階段：MVP 版本（< 1,000 設備）

架構重點：

快速驗證業務模式
最小化技術複雜度
專注於核心功能實現

系統架構圖：

diagram2

關鍵設計選擇：

使用 MQTT 作為主要協議（簡單可靠）
PostgreSQL + TimescaleDB 擴展處理時序數據
Redis 作為設備狀態緩存
單體應用架構，降低運維複雜度

第二階段：成長期（1,000 - 100,000 設備）

架構重點：

引入訊息佇列解耦組件
實施微服務架構
添加邊緣處理能力

系統架構圖：

diagram3

關鍵架構變更：

引入 Apache Kafka
- 解耦數據收集與處理
- 提供緩衝和重播能力
- 支援多消費者模式
邊緣運算層
- 本地數據預處理
- 減少上傳數據量
- 支援離線運作
時序資料庫遷移
- 從 PostgreSQL 遷移到 TDengine
- 10 倍寫入效能提升
- 5 倍壓縮率改善

預期效能提升對比表：

指標	MVP 階段	成長期	改善幅度
吞吐量	1K msg/s	100K msg/s	100x
延遲	1-5s	100-500ms	10x
存儲成本	$500/TB	$100/TB	5x
可用性	99.5%	99.9%	4x

第三階段：規模化（> 100,000 設備）

架構重點：

全球分散式部署
智能化運維
自適應擴展

總覽架構圖：

diagram4

數據處理細節圖：

diagram5

演進決策指南表：

觸發條件	採取行動	預期效果
訊息延遲 > 1s	增加 Kafka 分區	延遲降低 50%
CPU 使用率 > 70%	水平擴展處理節點	處理能力提升 80%
存儲成本 > $10K/月	啟用數據壓縮和分層	成本降低 60%
設備數 > 500K	部署新區域節點	延遲降低 70%

技術選型深度分析

關鍵技術組件比較

訊息佇列選擇：

技術選項	優勢	劣勢	適用場景
Apache Kafka	最高吞吐量（605 MB/s）最低延遲（5ms P99）成熟生態系	運維複雜不支援優先級佇列	大規模 IoT即時串流處理
Apache Pulsar	存儲計算分離多租戶支援地理複製	效能較低（305 MB/s）社區較小	多租戶 SaaS跨區域部署
RabbitMQ	最低延遲（1ms）豐富路由功能易於使用	吞吐量受限（38 MB/s）擴展性有限	小規模部署複雜路由需求

時序資料庫選擇：

技術選項	優勢	劣勢	適用場景
TDengine	最佳效能（16x 寫入速度）最高壓縮率（12x）最低成本	生態系統較新文檔相對較少	大規模 IoT成本敏感項目
Apache IoTDB	原生 IoT 設計設備模型支援邊緣部署友好	查詢功能受限工具較少	工業 IoT邊緣運算場景
InfluxDB	成熟生態豐富查詢語言良好工具支援	效能瓶頸成本較高	中小規模快速原型開發
TimescaleDB	SQL 相容PostgreSQL 生態事務支援	IoT 優化有限壓縮率較低	需要 SQL混合工作負載

技術演進策略

物聯網系統的技術選型不應該是一次性決策，而是隨著業務成長不斷演進的過程：

初期階段（POC）：
選擇熟悉的技術棧，比如 PostgreSQL + Redis，重點是快速驗證業務邏輯。這個階段不要過度設計，單體應用完全可以滿足需求。

成長階段（生產）：
當數據量達到 TB 級別時，考慮遷移到專業的時序資料庫。引入訊息佇列（Kafka）來解耦系統組件，開始構建微服務架構。

成熟階段（規模化）：
採用雲原生架構，利用 Kubernetes 實現彈性伸縮。引入機器學習進行預測性維護和異常檢測。考慮多雲或混合雲策略以提高可用性。

實戰經驗與教訓

常見架構陷阱

過早優化陷阱
- 錯誤：一開始就採用複雜的微服務架構
- 正確：從單體應用開始，隨需求演進
- 原因：過早的複雜化會拖慢開發速度，增加維護成本
協議選擇錯誤
- 錯誤：所有設備都使用 HTTP 協議
- 正確：根據設備特性選擇合適的協議
- 原因：HTTP 對於電池供電設備來說太重，會嚴重影響電池壽命
忽視邊緣處理
- 錯誤：所有數據都上傳到雲端處理
- 正確：在邊緣進行預處理和過濾
- 原因：可以減少 70% 的頻寬成本，降低延遲
數據模型設計不當
- 錯誤：使用關係型模型存儲時序數據
- 正確：採用專門的時序數據模型
- 原因：時序數據的查詢模式與傳統 OLTP 完全不同

業界案例分析

可口可樂飲料公司的 IoT 數位轉型 AWS Case Study、AWS Blog

發展歷程

初期挑戰（2020-2021）
- 架構特點：26 個裝瓶廠各自獨立運營，缺乏集中監控
- 技術痛點：手動數據收集、無法即時追蹤生產效率
- 規模：服務 10 個國家、4 億多消費者
快速部署期（2021）
- 主要改進：僅用 2 個月建置數位雙胞胎解決方案
- 遇到的挑戰：整合不同工廠的多種工業協議
- 解決方案：採用 AWS IoT SiteWise 統一數據收集，AWS IoT Greengrass 進行邊緣處理
規模擴展期（2022-2025）
- 當前架構特點：從 1 個工廠擴展至 4 個工廠，覆蓋關鍵生產線
- 技術棧：AWS IoT Analytics 進行即時分析、Amazon S3 建構數據湖、Tableau 視覺化
- 未來規劃：計劃擴展至全部 26 個裝瓶設施

關鍵學習點

快速實施的價值：2 個月內完成 POC 並看到實質成果，證明快速迭代的重要性
數據驅動決策：透過即時數據實現 20% 能源節約和 9% 水資源節約
標準化的力量：統一的 IoT 平台讓跨廠區的最佳實踐分享變得可能，額外獲得 34 個生產日

福斯汽車集團的工業雲平台演進 AWS Case Study、Technology Magazine

發展歷程

初期（2019-2020）
- 架構特點：120+ 個工廠各自獨立的 IT 系統
- 技術：傳統 MES 系統、本地數據存儲
- 規模：前 3 個試點工廠連接
成長期（2020-2024）
- 主要改進：建立統一的工業雲平台，標準化數據模型
- 遇到的挑戰：整合不同品牌（福斯、奧迪、保時捷等）的製造系統
- 解決方案：AWS IoT 平台 + 機器學習，已連接 43 個站點（114 個設施）
成熟期（2024-2025）
- 當前架構特點：每天追蹤 2 億個零件，部署 100+ 個機器學習模型
- 成果：生產力提升目標 30%，工廠成本降低 30%
- 未來方向：2025 年前連接所有 120+ 個工廠

關鍵學習點

規模化的挑戰：從 3 個工廠到 43 個站點的擴展需要強大的標準化策略
數據的價值：每天 2 億個零件的追蹤數據成為優化的基礎
長期承諾：5 年合作延期顯示 IoT 轉型需要長期投入和持續優化

關鍵設計模式

設計模式應用

1. 發布-訂閱模式（Pub-Sub）

使用場景：設備數據分發到多個消費者
實施方式：MQTT 主題設計、Kafka 主題分區
注意事項：合理設計主題層級，避免訂閱爆炸

2. 命令查詢職責分離（CQRS）

使用場景：分離設備控制和數據查詢
實施方式：寫入路徑用 Kafka，查詢路徑用時序資料庫
注意事項：需要處理最終一致性問題

3. 斷路器模式（Circuit Breaker）

使用場景：防止故障級聯
實施方式：在每個微服務中實施斷路器
注意事項：合理設置閾值，避免誤觸發

最佳實踐

設備管理最佳實踐：

實施設備分組和標籤管理
使用設備影子（Device Shadow）處理離線狀態
批次操作支援大規模設備管理
實施設備生命週期管理

數據處理最佳實踐：

在邊緣進行數據驗證和清洗
實施數據去重機制
使用時間窗口聚合減少數據量
保留原始數據用於審計

安全最佳實踐：

每個設備使用唯一憑證
實施設備證書輪換機制
使用 VPN 或專線連接關鍵設備
定期進行安全審計

監控與維護策略

關鍵指標體系

技術指標：

訊息吞吐量（目標：> 1M msg/s）
端到端延遲（目標：< 500ms P95）
系統可用性（目標：> 99.95%）
數據完整性（目標：0 數據丟失）

業務指標：

活躍設備數量（每日/每月活躍）
數據品質分數（完整性、準確性）
告警準確率（真陽性率 > 95%）
平均修復時間（MTTR < 30 分鐘）

維護最佳實踐

自動化運維
- 使用 Kubernetes Operator 自動管理有狀態服務
- 實施 GitOps 進行配置管理
- 自動化故障轉移和恢復流程
監控告警
- 建立多層次監控（基礎設施、應用、業務）
- 實施智能告警降噪
- 使用 AIOps 工具進行根因分析
持續優化
- 定期進行容量規劃評審
- 實施 A/B 測試優化系統參數
- 建立效能基準和回歸測試

總結

核心要點回顧

物聯網資料收集系統的設計是一個需要平衡多個維度的複雜工程。

協議選擇 決定了系統的基礎特性——MQTT 提供可靠性，CoAP 優化資源使用，選擇需要基於實際場景。

架構演進 應該是漸進式的，從簡單的單體應用開始，隨著規模增長逐步引入複雜性。

邊緣運算 不是可選項，而是大規模 IoT 系統的必需品，可以顯著降低延遲和成本。

時序資料庫 的選擇會深刻影響系統的效能和成本，TDengine 在大規模場景下展現出顯著優勢。

安全性 必須從設計之初就納入考慮，而不是事後補充。

設計原則提煉

從這個系統設計中，我們可以提煉出幾個通用原則：

漸進式複雜化原則：不要一開始就設計完美的系統，而是隨著需求增長逐步演進
數據就近處理原則：儘可能在數據產生的地方進行處理，減少傳輸成本
異構整合原則：物聯網世界是異構的，系統必須能夠整合不同的協議、設備和數據格式
韌性設計原則：系統必須能夠在部分失效的情況下繼續運作
成本效益原則：在滿足效能要求的前提下，始終考慮總體擁有成本

進階延伸的關鍵字

針對今天探討的物聯網資料收集系統，建議從以下關鍵字或概念深化研究與實踐，以擴展技術視野與解決方案能力：

LoRaWAN 和 NB-IoT：探索低功耗廣域網路技術，理解如何構建覆蓋城市級別的 IoT 網路，特別適合智慧城市和農業物聯網應用。
數位孿生（Digital Twin）：學習如何構建物理世界的數位映射，結合即時數據和模擬技術進行預測性分析，這是工業 4.0 的核心技術。
時序資料庫內部原理：深入理解 LSM-Tree、列式存儲、時間分區等核心技術，有助於優化數據模型設計和查詢效能。
MQTT 5.0 和 CoAP observe：掌握最新協議特性，如 MQTT 5.0 的請求響應模式、共享訂閱，以及 CoAP 的觀察模式，提升系統設計的靈活性。
邊緣 AI 框架：研究 TensorFlow Lite、ONNX Runtime、OpenVINO 等邊緣推理框架，實現智能化的本地決策能力。

可根據自身興趣，針對上述關鍵字搜尋最新技術文章、專業書籍或參加線上課程，逐步累積專業知識和實踐經驗。

下期預告

明天我們將深入探討「內容推薦系統的設計」。當數億用戶每天產生數十億次互動時，如何在毫秒內為每個用戶找到最相關的內容？我們將揭開 Netflix、YouTube 背後的推薦引擎秘密，探討協同過濾、深度學習、實時特徵工程等核心技術，以及如何解決冷啟動、資料稀疏性、公平性等挑戰。準備好進入個性化推薦的精彩世界了嗎？

參考資源

金融交易系統 - 毫秒之間的億萬決策

內容推薦系統 - 從冷啟動到千人千面的演算法藝術

系列文

30個系統設計實戰：全端工程師的架構修煉共 30 篇

RSS系列文訂閱系列文

11 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30個系統設計實戰：全端工程師的架構修煉系列 第 20 篇

IoT資料收集系統 - 處理百萬設備的即時數據洪流

場景定義與需求分析

業務場景描述

核心需求分析

功能性需求

非功能性需求

核心架構決策

識別關鍵問題

架構方案比較

決策思考框架

系統演進路徑

第一階段：MVP 版本（< 1,000 設備）

第二階段：成長期（1,000 - 100,000 設備）

第三階段：規模化（> 100,000 設備）

技術選型深度分析

關鍵技術組件比較

技術演進策略

實戰經驗與教訓

常見架構陷阱

業界案例分析

發展歷程

關鍵學習點

發展歷程

關鍵學習點

關鍵設計模式

設計模式應用

最佳實踐

監控與維護策略

關鍵指標體系

維護最佳實踐

總結

核心要點回顧

設計原則提煉

進階延伸的關鍵字

下期預告

參考資源

尚未有邦友留言

標記使用者

30個系統設計實戰：全端工程師的架構修煉系列第 20 篇