過往對於 data pipeline 處理與排程,最常透過程式的方式去控制,但隨著時間演進,pipeline 管理也會跟隨著複雜化,再加上比較難以去實現到 streaming 的 pipeline,通常只能用於 batch 方式居多。因此來介紹一個好用的工具 - Apache NiFi。讓使用者可以透過無需撰寫程式的方式即可訂定與管理自己的 data pipeline,且支援 batch 和 streaming 的流程,過程中會從簡介與架構、環境建設、cloud stroage 和 DB 的對接、data transformation等,甚至到最後也會有個與其他類似工具的比較與使用場景分享。
我是誰?這系列的目的是? 先來簡單自我介紹一下,我是 Mars。目前在公司擔任 Data / ML Engineer,但除了接觸 Data 相關的任務之外,我本...
在前面,我有稍微帶到 Apache NiFi 的性質與特點,但除了了解這些之外,我們也要清楚知道這個服務本身的架構,以及它牽扯到有哪些 Component,就趁...
前面已經大概介紹了一下 NiFi 的用途還有特性,那今天就來講在 NiFi 中,其實是可以對一組 Data Pipieline 來做一個『版本控制』,就類似於...
Docker & Docker Compose installation 今天我們就來快速地建立起自己的 NiFi 服務吧!我會利用 Docker 的方...
還記得系列文的一開始,有先向各位讀者介紹在 NiFi 中重要的幾個 Componenet,那時候還只有概念文字的說明,現在我們已經建立起服務在自己本機上了,而在...
前面我們已經介紹完 FlowFiles 了,接下來就是可以一步一步地去建置我們的 Data Pipeline,今天的主角是『Processors』。 Proce...
前面我們介紹完了 Processor 之後,一個完整的 Data Pipeline 就是要將這些 Processor 給串連起來,此時就需要理解今天的主角 -...
前面已經講完 Processor 和 Connection 兩個重要的 Componenet,我們就可以透過這兩個去建立基本的 Data Pipeline。但有...
今天我要來介紹下一個對 NiFi 很重要的 Componenet - Controller Service。只要與第三方的平台、cloud 或 DB 等都需要透...
今天我們要講的東西有點多,要一次講三個,分別是 Templates, Labels & Funnel,雖然看起來一次講這麼多感覺有點複雜,但其實概念跟操...