iT邦幫忙

0

關於使用Java進行ETL工作的問題

  • 分享至 

  • xImage

各位大大好,想請問使用Java進行ETL工作,將DB中各個table的資料取出清洗後放入Data Warehouse的過程,整個ETL的流程大概會是如何呢?

例如使用JDBC將資料取出,然後按照規則將Data清洗完之後直接INSERT進DW嗎?是否有可推薦的文檔或是課程可供參考? 謝謝

obarisk iT邦研究生 2 級 ‧ 2022-09-20 10:27:30 檢舉
java 也許用 beam 吧
obarisk iT邦研究生 2 級 ‧ 2022-09-20 10:27:52 檢舉
https://beam.apache.org/
Peter iT邦新手 4 級 ‧ 2022-09-21 09:23:31 檢舉
謝謝推薦
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 個回答

1
海綿寶寶
iT邦大神 1 級 ‧ 2022-09-21 09:08:24
最佳解答

我覺得這篇寫得不錯
推薦參考看看

Peter iT邦新手 4 級 ‧ 2022-09-21 09:51:39 檢舉

謝謝海綿大推薦,對於ETL的描述很清楚。

這幾天我看了一些文章後發現對於ETL的描述,跟我一開始的理解似乎差不多,籠統的描述就是蒐集清洗後載入指定地點,俗話講就有點像在倒資料,但我後來發現我可能比較需要的是一些細節,例如管理方面的排程(Job)、可維護性及延展性等等,或是效能方面的運算速度或即時性等等,這些細節要如何實現,或有哪些要坑需要特別注意。

我第一個想法是,盡量不要自己造輪子,所以可能找一些開源的工具作為中間件會比較好一點,後來我有看到這篇
https://www.twblogs.net/a/605898e6e83ad4e1f40ad360
現在應該會比較往這個方向去摸索

0
troychen
iT邦新手 5 級 ‧ 2022-09-21 09:19:37

請問你是否要自行用 java 開發 ETL,如果不是可以考慮使用 ETL 工具 informatica 或 talend,其中 talend 有 opensource 的版本可用

Peter iT邦新手 4 級 ‧ 2022-09-21 09:57:43 檢舉

謝謝推薦,但我會用Java來開發,因為自己寫的話對於一些特定需求的處理會比較直接一點,只是可能還是需要一些開源的中間件來協助,一方面可以省下大量時間,一方面是相信開源大神寫出來的算法效率會比我的好太多

我要發表回答

立即登入回答