iT邦幫忙

2023 iThome 鐵人賽

DAY 15
1
IT管理

從 IT 的視角觀看公司內部的系統管理及設計系列 第 15

Day 15 : 多系統整合 Part4 - 擷取、轉換、載入 (ETL)

  • 分享至 

  • xImage
  •  

多系統整合 Part4 - 擷取、轉換、載入 (ETL)

在前幾篇文章中,我們已經討論了多系統整合的必要性、使用電子資料交換(EDI)和應用程式介面(API)的方法。今天,我們將深入研究另一個重要且常用的資料整合方法 - 擷取、轉換、載入(ETL)。這是資料整合和資料倉庫的建構流程中不可或缺的步驟。


什麼是 ETL?

ETL代表 Extract, Transform 和 Load,是一種資料整合的過程,用於將資料從一個或多個來源系統擷取(Extract),然後進行資料轉換(Transform),最後將轉換後的資料載入(Load)到目標系統或資料庫中。這個處理過程通常用於將資料從不同格式、結構或位置的資料來源轉換為統一的格式,以便進行分析、報告、改善工作流程等用途。

https://ithelp.ithome.com.tw/upload/images/20230930/201625457Rq7xpwiVO.png

擷取、轉換與載入

ETL 分別代表了擷取、轉換與載入三個步驟:

  1. 擷取(Extract): 從來源系統中擷取資料,這些來源系統可能包括各種資料庫、應用程式、文件或 API。
    在擷取階段,我們需要確定從一個或數個來源系統中擷取哪些資料以及如何擷取。這些被擷取出來的資料,將被載入到暫存區中。
    例如將 ERP 系統中的訂單資料或出貨資料擷取出來。
  2. 轉換(Transform): 在擷取資料後,進行資料轉換。會包括資料清理、資料格式轉換、計算新資料內容等。
    在轉換階段,資料會被清理、轉換和格式化,以滿足目標系統的需求。資料的清理通常需要取出重複、不完整或明顯錯誤的記錄。
    例如將訂單資料和出貨資料轉為統一的格式、清除沒有完成的訂單或是包含不完整資料的訂單。
  3. 載入(Load): 將經過轉換且格式化的資料載入目標系統,通常是資料倉儲或目標資料庫。
    載入階段將經過轉換的資料載入目標系統。在這個階段,我們需要確保資料的完整性和一致性。

ETL 的重要性

ETL 非常重要,公司如果想要針對資料進行統一的管理或分析,就一定要有 ETL 流程來整理繁雜的資料到一個地方。ETL 允許不同系統 (或不同資料庫) 中的資料被整合到一個統一的資料存儲庫中,也因此提供了一個一致的、可查詢的資料來源。在分析公司的資料時,可以更好的使用與理解這些資料,更可以幫助公司做出關鍵決策以及進行分析與報告。
而對於機器學習,ETL 也扮演了很重要的角色。ETL 為機器學習模型提供清理、整合和特徵工程所需的資料。有人說過,Garbage in, garbage out,也就是說資料的前處理與清理是非常重要的。
ETL 系統除了資料的清理,他還自動化了整個資料流程,節省了時間並提高了資料品質。同時 ETL 有助於整合多個資料來源,提供一致的資料庫,支援模型訓練和預測。

結論

擷取、轉換、載入(ETL)是多系統整合和資料管理的重要步驟。通過 ETL 流程,公司可以將資料從不同源頭整合到一個統一的資料存儲庫中,可以用在業務分析、產生報告和重要決策。


Reference :

Google Cloud - What is ETL?
AWS - What is ETL?
Wikipedia - Extract, Transform, Load


上一篇
Day 14 : 多系統整合 Part3 - 應用程式介面 (API)
下一篇
Day 16 : 多租戶技術 (Multi-Tenancy Technology)
系列文
從 IT 的視角觀看公司內部的系統管理及設計30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言