2025 iThome 鐵人賽

DAY 18

AI & Data

「知其然，更知其所以然：什麼是 Real-time (Streaming) Pipeline？從造輪子到 Flink 與 RisingWave」系列第 18 篇

【知其然，更知其所以然】Day18：從 DataFrame 到支援 SQL 語法

17th鐵人賽

wudihero2

2025-09-07 00:56:32

190 瀏覽

分享至

「老闆，我只會寫 SQL，這個流式處理太複雜了...」看著螢幕上的程式碼，眉頭深鎖。

剛從資料分析師轉為後端工程師，對 SELECT COUNT(*) FROM orders WHERE customer_id = 'C001' GROUP BY product_id 這樣的 SQL 查詢駕輕就熟，但面對 orders_df.filter(...).group_by(...).count() 就開始頭疼。

能不能直接寫 SQL，然後自動轉成流式處理？

這個問題很有代表性。大多數工程師都是從 SQL 開始學習數據處理的，SQL 的聲明式語法直觀易懂，但流式處理的程序式 API 需要重新學習思維模式。

今天我們就來探討：如何將熟悉的 SQL 語法自動轉換成 SimpleStream 算子，讓 SQL 成為流式處理的入口。

重要提醒
本文所有程式碼皆為教學與概念演示用的 Pseudo Code，可以幫助你理解並解決實際場景的問題，但這裡的程式碼不能直接使用，主要目的是用來講解 Stream Processing 的設計思路與核心概念。閱讀時建議把重點放在理解整體架構和設計邏輯上，程式碼細節部分可以輕鬆看過就好。

SQL 解析的核心原理

SQL-to-Stream 轉換器的設計架構

整體架構

┌─────────────┐  ┌─────────────┐  ┌─────────────┐  ┌──────────────┐
│ SQL Input   │->│ SQL Parser  │->│AST Analyzer │->│Code Generator│
└─────────────┘  └─────────────┘  └─────────────┘  └──────────────┘
                        │                 │                 │
                        ▼                 ▼                 ▼
                 ┌─────────────┐    ┌─────────────┐    ┌─────────────┐
                 │Syntax Check │    │Semantic     │    │Python Code  │
                 │             │    │Analysis     │    │Output       │
                 └─────────────┘    └─────────────┘    └─────────────┘

SQL Parser：將 SQL 字符串解析為 AST
- 使用 sqlparse 或 pyparsing 庫
- 處理 SQL 語法的變體和擴展
AST Analyzer：理解 SQL 的業務意圖
- 識別聚合模式：global vs group vs window
- 分析時間語義：static filter vs dynamic window
- 檢測 JOIN 類型：lookup vs streaming
Code Generator：輸出對應的 SimpleStream 代碼
- 維護算子鏈的正確順序
- 處理數據類型轉換
- 添加錯誤處理邏輯

抽象語法樹（AST）解析

SQL 查詢需要先解析為抽象語法樹，然後映射到流式算子：

SQL: SELECT customer_id, COUNT(*) FROM orders WHERE amount > 100 GROUP BY customer_id

解析為 AST：
┌─────────────────┐
│   SELECT        │
├─────────────────┤
│ • customer_id   │
│ • COUNT(*)      │
└─────────┬───────┘
          │
┌─────────▼───────┐
│   FROM          │
├─────────────────┤
│ • orders        │
└─────────┬───────┘
          │
┌─────────▼───────┐
│   WHERE         │
├─────────────────┤
│ amount > 100    │
└─────────┬───────┘
          │
┌─────────▼───────┐
│   GROUP BY      │
├─────────────────┤
│ • customer_id   │
└─────────────────┘

算子映射規則

# 核心映射邏輯（概念代碼）
def sql_to_stream(sql_ast):
    stream_chain = get_source_dataframe(sql_ast.from_clause)
    
    # WHERE → filter()
    if sql_ast.where_clause:
        stream_chain = stream_chain.filter(
            create_filter_function(sql_ast.where_clause)
        )
    
    # GROUP BY → group_by()
    if sql_ast.group_by_clause:
        stream_chain = stream_chain.group_by(
            sql_ast.group_by_clause.fields[0]
        )
        
        # SELECT 聚合函數 → 聚合算子
        for select_item in sql_ast.select_clause:
            if select_item.is_aggregation():
                if select_item.function == "COUNT":
                    stream_chain = stream_chain.count()
                elif select_item.function == "SUM":
                    stream_chain = stream_chain.sum(select_item.field)
    
    return stream_chain

這個轉換器的工作原理如下：

建立數據源：從 SQL 的 FROM 子句提取表名，對應到相應的 DataFrame 數據源
條件過濾：如果有 WHERE 子句，將 SQL 條件轉換為 lambda 函數，加入 .filter() 算子
分組操作：如果有 GROUP BY 子句，提取分組欄位，加入 .group_by() 算子
聚合處理：掃描 SELECT 子句中的聚合函數（如 COUNT、SUM），對應加入相應的聚合算子
鏈式組合：將這些算子按順序串接，形成完整的流式處理管道

實際轉換例子

例子 1：簡單聚合查詢

-- SQL 查詢
SELECT customer_id, COUNT(*) as order_count
FROM orders
WHERE amount > 500
GROUP BY customer_id;

# 自動生成的流式處理代碼
result_df = (orders_df
    .filter(lambda x: x.get('amount', 0) > 500)
    .group_by('customer_id')
    .count()
)

轉換步驟：

FROM orders → 使用 orders_df 作為數據源
WHERE amount > 500 → .filter(lambda x: x.get('amount', 0) > 500)
GROUP BY customer_id → .group_by('customer_id')
COUNT(*) → .count()

總結

經過這趟 SQL 到流式處理的轉換探索，我們發現語法轉換其實是一座橋樑，讓資料庫背景的工程師能更容易進入流式處理的世界。

雖然 SQL 轉換有其限制，無法表達流處理的所有高級特性，但對於大多數常見場景來說，這種自動轉換能大幅降低學習門檻，讓團隊快速上手。重點不在於完美的轉換，而在於讓更多人能夠理解和使用流式處理。

SQL 的聲明式語法天生就比程序式 API 更容易閱讀和理解，這對團隊協作和代碼維護都有很大幫助。數據分析師可以用熟悉的 SQL 定義業務邏輯，工程師負責轉換和優化，大家都能用同一種語言溝通業務需求。

需要強調的是，本章展示的是簡易版實現。實際工業級的 SQL 引擎是一個極其複雜的工程課題：

語法複雜度：完整的 SQL 標準包含數百個關鍵字、複雜的嵌套查詢、CTE、窗口函數等
查詢優化：需要成本模型、統計信息、執行計劃優化等高級技術
兼容性挑戰：不同資料庫的 SQL 方言差異很大，需要大量適配工作
性能考量：解析、優化、執行都需要高度優化才能達到生產級性能

像 Apache Calcite、Spark SQL、Flink SQL 這些成熟方案，都是經過多年發展、數千個 commit 才達到今天的成熟度。我們這裡只是展示核心思路，距離實用還有很長的路要走。

Day 19 預告：現實的考量 - 還欠缺什麼？

做到這裡，你可能會問：「我們的 SimpleStream 已經這麼強大了，是不是可以用在生產環境了？」

坦白說，還早呢。我們目前打造的系統雖然功能完整，但距離生產就緒還有一大段路：

監控在哪裡？ 系統跑起來後，你怎麼知道處理延遲多少？錯誤率多高？內存用了多少？

分散式呢？ 單機處理能力有限，數據量大了怎麼辦？多台機器怎麼協調？

運維友好嗎？ 部署、升級、故障排查，這些日常操作複雜嗎？

當你是小團隊、能力有限、時間緊迫時，自己造輪子實在太困難了。下一章我們要誠實面對這個現實：什麼時候該放棄造輪子，擁抱開源生態？ 我們會探討成熟商業方案，以及如何在「學習價值」和「實用性」之間找到平衡。

【知其然，更知其所以然】Day17：狀態的生死之謎 - 持久化

【知其然，更知其所以然】Day19：現實的考量 - 擁抱開源生態

系列文

「知其然，更知其所以然：什麼是 Real-time (Streaming) Pipeline？從造輪子到 Flink 與 RisingWave」共 30 篇

RSS系列文訂閱系列文

13 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

「知其然，更知其所以然：什麼是 Real-time (Streaming) Pipeline？從造輪子到 Flink 與 RisingWave」系列 第 18 篇