iT邦幫忙

2024 iThome 鐵人賽

DAY 4
0

資料分析/大數據分析的定義

是「Analytics」? 還是「Analysis」? 在慣用中文思考的情況下,兩者都被稱為分析,是無法用中文來區分兩者差異。 然而 AnalyticsAnalysis 兩者在英文描述中,分別涵蓋了不同的精神在其中。

  • (Big) Data Analytics: 透過分析,預測未來可能會發生的事件。
  • Data Analysis: 透過檢討,找出既定事實的成因。

而我們在後續討論的「資料分析師」、「資料分析」,絕大部分都是在指 Analytics、預測未來的那一個!

大數據分析遵循五個步驟來分析任何大型資料集:

  1. 資料收集 (Data collection): 根據 ETL 或 ELT 的步驟進行。
    • 在 ETL 中,產生的資料首先轉換為標準格式,然後載入儲存。
    • 在 ELT 中,資料首先被載入儲存,然後轉換為所需的格式。

    以抓魚為例,有些人習慣先殺魚、再裝進冰桶;也有先裝進冰桶、之後再進行宰殺的。

  2. 資料儲存體 (Data storage): 根據資料的複雜性,可以將資料移至雲端資料倉儲或資料湖等儲存。商業智慧工具可在需要時存取。

    東市買駿馬,西市買鞍韉,南市買轡頭,北市買長鞭。 菜!渣!集!中!

    • 資料倉儲
      • 是經過最佳化的資料庫,能夠分析來自交易處理系統以及商業應用程式中的關聯式資料
      • 預先定義資料結構與結構模式,以最佳化快速搜尋和報告。
      • 資料經過清除、豐富和轉換,可用作使用者可信任的「單一來源」。
      • 資料範例包括客戶檔案和產品資訊。

      泛指那些拿來畫報表會用到的資料,通常都是有明確的欄位、單純的數值。

    • 資料湖
      • 可以存放結構化和非結構化資料,而無需任何進一步處理。
      • 擷取資料時未定義資料或結構模式的結構;這意味著您無需精心設計即可存放所有資料,這在資料的未來用途未知時尤其有用。
      • 資料範例包括社交媒體內容、IoT 裝置資料,以及行動應用程式的非關聯式資料
      • 組織通常需要資料湖和資料倉儲來進行資料分析。
    • AWS Lake Formation 和 Amazon Redshift 可滿足您的資料需求。
  3. 資料處理 (Data processing): 資料放置後,必須對其進行轉換和整理,以便從分析查詢中取得準確的結果。存在不同的資料處理選項可執行此操作。方法的選擇取決於可用於資料處理的運算和分析資源。
    • 集中式處理: 所有處理都發生在託管所有資料的專用中央伺服器上。
    • 分散式處理: 資料分佈並存放在不同的伺服器上。
    • 批次處理: 資料片段會隨著時間的推移而累積分批處理。
    • 即時處理: 資料經持續處理,運算任務會在幾秒內完成。
  4. 資料清除 (Data cleansing): 資料清除涉及清除任何錯誤,如重複、不一致、冗餘或錯誤格式。 它還用於篩選掉任何不需要的資料以進行分析。
  5. 資料分析 (Data analysis): 這是將原始資料轉換為可行洞察的步驟。
    1. 描述性分析: 資料科學家分析資料,以了解資料環境中發生了什麼或正在發生什麼。其特點為資料視覺化,如圓餅圖、長條圖、折線圖、表格或是產生的敘述。
    2. 診斷性分析: 診斷性分析是藉由深入或詳細的資料分析程序,以瞭解發生某事的原因。其特點為例如深入研究、資料探索、資料採礦和關聯性等技術。在上述每一項技術中,均使用多個資料操作和轉換來分析原始資料。
    3. 預測分析: 預測性分析使用歷史資料對未來趨勢做出準確預測。其特點為採用各項技術,如機器學習、預測、模式匹配,以及預測性建模。在上述每一項技術中,電腦都經過訓練,可以對資料中的因果關係進行逆向工程。
    4. 規範性分析: 規範性分析將預測性資料提升至下一個層級。它不僅會預測可能發生的事情,還可以針對該結果建議最佳的回應方式。還可以分析不同選擇的潛在影響並建議最佳行動方案。其特點是具有圖形分析、模擬、複雜事件處理、神經網路和推薦引擎。

REF


上一篇
【Day 3】 S3 的相關知識
下一篇
【Day 5】做題庫小試身手 - 1
系列文
老闆,外帶一份 AWS Certified Data Engineer30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言