📈 第 2 篇：即時串流大數據平台實戰

2025 iThome 鐵人賽

DAY 2

AI & Data

AI的世界包羅萬象-從數據分析、預測型到生成式系列第 2 篇

17th鐵人賽

superwilly1122

2025-09-16 18:37:38

108 瀏覽

分享至

系列主旨

建立可處理高速資料流的即時分析平台，支援數百萬筆事件/秒的規模。

📌 Part 1：資料管線設計

*目標
規劃資料進入、處理與儲存的完整流程。

*技術
Kafka, Spark Streaming, HDFS

*流程圖描述
資料來源 → Kafka Producer → Kafka Broker → Spark Streaming Consumer → HDFS

# 啟動 kafka broker
bin/kafka-server-start.sh config/server.properties

from kafka import KafkaProducer
producer = KafkaProducer(bootstrap_servers='localhost:9092')
producer.send('topic1', b'hello world')

Part 2：串流處理與 ETL

*目標
用 Spark 處理即時資料，執行清理與轉換。

*技術
pyspark

*流程圖描述
Kafka Consumer → Spark Streaming → DataFrame → ETL → Parquet

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("streaming").getOrCreate()
df = spark.readStream.format("kafka").option("subscribe", "topic1").load()
df.selectExpr("CAST(value AS STRING)").writeStream.format("parquet").start("/data/output")

Part 3：資料湖與倉儲

目標
將處理後資料儲存於資料湖並提供查詢。

*技術
Delta Lake, Hive

*流程圖描述
Parquet → Delta Lake → Hive Metastore → BI Query

df.write.format("delta").save("/delta/events")
spark.sql("CREATE TABLE events USING DELTA LOCATION '/delta/events'")

Part 4：監控視覺化
*目標
即時監控處理流程與系統負載。

*技術
Grafana, Prometheus

*流程圖描述
Spark Metrics → Prometheus Exporter → Grafana Dashboard

# prometheus.yml
scrape_configs:
  - job_name: 'spark'
    static_configs:
      - targets: ['localhost:4040']

結論與效益

可即時處理高頻事件流，讓企業能快速反應市場變化。

第 1 篇：AI 資料科學家養成筆記 — 從原始資料到智慧決策

第 3 篇：生成式 AI 工具鏈 — 企業應用實戰

系列文

AI的世界包羅萬象-從數據分析、預測型到生成式共 12 篇

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

AI的世界包羅萬象-從數據分析、預測型到生成式系列 第 2 篇