[Day1] Apeche Flink 簡介

2019 iT 邦幫忙鐵人賽

DAY 1

AI & Data

Streaming data process with Apache Flink系列第 1 篇

2019鐵人賽

atoto9

2018-10-09 22:15:19

12322 瀏覽

分享至

Apache Flink以一句話描述的話會是?

Apache Flink在2014年自apache孵化器畢業, 是一款由Java和Scala開發的計算框架, 可處理批次資料(Batch)和流式資料(Streaming), 目前主要由data Artisans的成員進行開發。

Apache Flink和其他計算框架的差別?

Data Artisans官方網站, 將目前處理streaming data的主要框架進行比較, 此處只有Spark Streaming為Micro-batch處理streaming data, 其他框架為原生streaming式的框架, 這點反映在Latency上面, 相對的, Throughput也是Spark Streaming最佳。此外, Apache Flink有保證Exactly once的模式, 並有狀態紀錄和不同時間窗格的應用。

(以上資料取自https://data-artisans.com/blog/high-throughput-low-latency-and-exactly-once-stream-processing-with-apache-flink)

本系列文規劃

(以上資料取自https://ci.apache.org/projects/flink/flink-docs-release-1.6/concepts/programming-model.html)
從上圖來看, 底層處理資料的API分為DataStream和DataSet(分別是Streaming & Batch), 本系列文會以DataStream的應用和操作為主, 在系列文的最後如有時間的話再討論DataSet/SQL的使用。