iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0

隔行如隔山,在剛進入某某領域時,最惱人的大概就是聽不懂那些「行話」。
在這個系列中,先把哪些常見的名詞蒐集在這篇文章中,並先記住最重要的精神,以利後續理解別人在講什麼、想傳達什麼。

專有名詞

在準備證照的初期,會有一些名詞需要了解,透過簡單的解釋這些名詞究竟想要表得什麼抽象的觀念。

  1. 資料湖 / Data Lake
    • 集中、中央存放區。
    • 儲存、處理及保護大量結構化、半結構化和非結構化資料。
    • 資料量可以很大,到 PB 等級。

    相對於散落各處的資料而言,資料湖就是集中處理!

  2. 資料倉儲 / Data Warehouse
    • 是結構化的歷史資料。
    • 不同於資料湖,倉儲的資料已經去蕪存菁,為了快速產生商業決策的目的而存在。
  3. 資料孤島 / 數據孤島 / Data Silo / Isolated Data Island
    • 泛指企業中,不同組織或是部門各自維護的系統、資料庫、檔案。
    • 因為四散各處,缺乏整合,難以發揮價值,或者是不容易取用。
  4. 資料擷取(Extract)
    • 資料萃取的程序,包含由資料源取得資料。
    • 例如編碼轉換、資料檢核,以及退回不合規格的資料。
  5. 資料轉換(Transform)
    • 資料轉換的程序,主要是內容轉換。
    • 包括代碼的轉換,甚至是一筆變多筆或多筆變一筆的情況。
  6. 資料載入(Load)
    • 資料載入目標系統或產生目標系統所需的格式。
    • 此步驟需包含產出目標系統前保留一份與目標系統相同內容的資料。
  7. ETL / ELT / ETLT:資料擷取 / 資料轉換 / 資料載入 的排列組合。
  8. 元資料 / 中繼資料 / 後設資料 / Metadata
    • 用來描述資料的資料⋯
    • 例如以『張淑晶』來形容房東的話,他會隱含很多訊息
      • 顯而易見的資料如 電話號碼、英文名字、個性、性別、身高、體重、⋯⋯
  9. 資料目錄 / 數據型錄 / Data Catalog
  10. 資料管道 / Data Pipeline
    • 泛指從程式或是終端裝置吐出資料後,可以透過一系列的自動化程序,蒐集並處理資料。
    • Source Data -> ETL / ELT / ETLT -> Target Data

結論

  • 先看懂名詞,再去讀文件或看題目。

參考資料

  1. 什麼是資料湖 - from AWS
  2. Data Lakes on AWS
  3. Build a data catalog solution for both business and technical users with Amazon DataZone & AWS Glue

上一篇
【Day 1】 AWS Data Engineer Associate (DEA-C01) 證照簡介
下一篇
【Day 3】 S3 的相關知識
系列文
老闆,外帶一份 AWS Certified Data Engineer13
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言