iT邦幫忙

2025 iThome 鐵人賽

DAY 7
0

一、資料庫技術與大數據技術的演進

  • 傳統資料庫技術:

    • Greenplum: 一種基於 PostgreSQL 的分散式資料庫,支援百台機器和 PB 級別的資料處理。它利用 大規模平行處理(MPP) 架構來處理龐大資料。
    • 集中式資料庫: 在大數據早期,企業多使用集中式的關係型資料庫(如 Oracle RAC)來儲存核心業務資料,但其規模通常在 10TB 以下。隨著資料量增加,這種架構已不足以應對。
  • 大數據技術生態系:

    • 當資料量超過傳統資料庫處理能力時,分散式運算系統應運而生,主要包括:
      • Hadoop: 擅長處理離線、複雜的大數據任務。
      • Spark: 擅長處理離線、快速的大數據任務。
      • Storm: 擅長處理線上、即時的大數據任務。

二、大數據技術的構成與應用

大數據技術可分為兩大層面:

  1. 大數據平台技術: 這是底層的技術基礎,負責資料的採集、儲存、流轉和加工,例如 Hadoop 生態系。
  2. 大數據應用技術: 負責將資料轉化為商業價值,例如演算法、模型、引擎等。

資料處理流程中的重要環節:

  • ETL (Extract, Transform, Load): 這是資料倉庫的關鍵步驟,負責資料抽取、清洗、驗證和導入。當資料來源多樣化(如業務資料庫、日誌、爬蟲資料等)時,資料清洗和驗證變得尤為重要,因為錯誤的大數據會導致錯誤的結論
  • 資料管理: 隨著資料來源和使用者增多,資料流動變得複雜,容易導致資料重複和任務混亂。因此,需要引入資料管理,包含元資料標準、可信資料層等,以確保資料的準確性和可信度。

三、大數據分析的基礎與能力

大數據分析是發掘資料潛在價值的關鍵,其核心基礎包括:

  1. 視覺化分析: 透過圖表等視覺化方式呈現數據特徵,使其直觀易懂。
  2. 資料挖掘演算法: 這是大數據分析的理論核心,利用各種統計學方法從資料中挖掘出規律、關係和價值。
  3. 預測性分析能力: 透過建立模型,利用歷史數據來預測未來的趨勢。
  4. 語義引擎: 應用於網路資料挖掘,分析使用者輸入的關鍵詞來判斷其需求。
  5. 資料品質與管理: 高品質的資料和有效的管理是保證分析結果真實和有價值的基礎。

四、企業資料平台的必要性與建置

企業建置資料平台,通常是為了應對以下挑戰:

  1. 業務視角: 解決多業務系統間資料不互通的問題,避免人工整合資料的低效率和高錯誤率。
  2. 系統視角: 透過將資料分析任務從業務系統中獨立出來,減輕業務系統的壓力
  3. 技術視角: 應對原始平台無法承受更大資料量或處理效率低下的問題,重新架構以提升效能。

成功的資料平台應具備以下特點:

  • 高品質資料: AI 和大數據分析的成功依賴於準確、乾淨的資料。如果輸入的是「垃圾」,結果也會是「垃圾」。因此,資料科學家和分析師花大量時間進行資料整合與管理。
  • 集中與共享: 資料平台應作為公共、中立的基礎設施,實現資料的集中與共享
  • 標準統一: 統一資料標準和管理策略,避免架構混亂和資料複製。
  • 長期與短期結合: 平台應包含資料儲存、應用、資料管控、資料交換與調度等多個層面,是一個全面的企業級基礎設施。

上一篇
【Day 6】什麼是大數據?
下一篇
【Day 8】機器學習概述(上)
系列文
AI 系列讀書會:小白也能搞懂的 AI 與大數據9
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言