iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 4
0
Big Data

30天學會Data Integration - Kettle系列 第 4

Job 與 Transformation 基本觀念

  • 分享至 

  • xImage
  •  

此篇將稍微帶一下觀念的部分,也許會覺得有些抽象,但沒關係,後續的實做將有助於我們更了解Job與 Transformation的觀念

Transformations

Transformations主要是負責資料分析與邏輯運算,在資料處理的過程中,我們將每個動作稱為Steps,而一個Transformation就是由多個Steps所組成。

Steps

在Kettle中提供上百個Steps,包含:Input(讀寫資料)、Output(匯出資料)與Join等等...,每個Step都指派了特別的任務,例如讀取我們所指定的檔案、擷取特定的欄位或是將資料更新到資料庫的某張資料表,我們都可以自行設定Steps,並賦予它獨特的任務來完成我們的資料整合需求。

Design頁籤中可以看到Steps清單
http://ithelp.ithome.com.tw/upload/images/20161220/20091626bObET71E45.png

在主要的編輯區中,可以加入多個Steps,如下圖就使用了五個Steps
http://ithelp.ithome.com.tw/upload/images/20161220/20091626pvFxPyoNoI.png

Hops

連接Step與Step之間的路徑而稱為Hop,定義資料要傳到哪個Step,根據Steps的屬性,在設計過程中,Hop可能會有多條的情況,它會負責將每個Step的資料送至別的Steps,雖然Hop上面有顯示箭頭,但不代表Steps的執行順序,Hop只是確定資料的流向,而在Transformations執行時,每個步驟都有自己的Thread負責處理與接收與傳遞資料,每當一筆資料被處理完畢時立刻會送往下一個Step,並不會等待Step中所有的資料都處理完畢才一起送往下一個Step

在主要的編輯區中,可以設定Steps之間的Hops
http://ithelp.ithome.com.tw/upload/images/20161220/20091626sQ1dkCLO4j.png


Jobs

Jobs是來整合多個Transformations,是透過Entries來設定執行的內容,例如:加入Transformations、判斷檔案是否存在、讀取FTP文件或是設定Email來發送執行結果,Jobs常常會用在例行性的排程的設計上面,例如:每一個小時就要將A資料庫的某些資料更新到B資料庫
http://ithelp.ithome.com.tw/upload/images/20161220/20091626uUFF58OZsn.png

Entries

Jobs是由Entries所組合而成,概念上就等同於Transformations的Steps,一樣也提供了許多功能供我們操作使用

Hops

觀念上與Transformations的Hops相似,不同之處在於Jobs的Hops是有執行順序的,會根據上一個Entry的結果來判斷下一個Entry將做什麼處理,也就是它會等每一個Entry處理完畢之後再執行下一個Entry。

以上我覺得應該不是很好理解,看來我的解說能力還有待加強,不過透過實際操作,會漸入佳境的,請大家持續收看啊!下一篇就開始帶Transformations實做,敬請期待,記得要先裝好Kettle,跟著我一起來實做看看喔!

參考資料:https://help.pentaho.com/Documentation/7.0/0L0/0Y0/030/010


上一篇
操作環境基本介紹
下一篇
Transformation基本操作
系列文
30天學會Data Integration - Kettle30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言