大數據是指利用現有工具難以在可接受的時間內完成分析與運算,但整體呈現高價值的大量複雜資料集合。資料正在成為繼土地、資本之後,最核心的生產要素,大數據代表了一種現象,即資料的指數成長超過了人們管理與應用的能力。大數據分析是基於人工智慧(AI)技術,特別是機器學習與深度學習,對大量資料進行的分析。資料是AI的根本,沒有大量資料支援的AI如同「人工智障」。
大數據的特徵
大數據呈現出四個顯著特徵:
-
資料量 (Volume):全球資料量呈倍增趨勢,每個應用所運算的資料量也大幅增加。
-
資料速率 (Velocity):資料產生與傳輸速度更快,呈現鮮明的流式特徵,資料的價值有效期也急速縮短。
-
資料複雜性 (Variety):資料種類繁多,結構化、半結構化和非結構化資料並存,且後兩者的比例不斷增加。
-
資料價值 (Value):雖然資料規模越大,潛在價值也越大,但其價值密度極低,需要透過運算與應用來提煉。
大數據的誤區
大數據並非簡單地擁有大量資料、建立報表平台或運算平台,這些只是大數據應用的部分技術或工具。
-
大數據 ≠ 擁有資料:擁有大量資料本身不構成大數據,必須透過關聯、交換和使用才能產生價值。
-
大數據 ≠ 報表平台:報表只是大數據的呈現方式,真正的大數據業務是建立自動化、智慧化的閉環系統,透過資料指導決策。
-
大數據 ≠ 運算平台:運算平台是技術基礎,但沒有資料和分析加工的流程,無法形成大數據業務。
大數據的常用功能
大數據主要有以下六種常見功能:
-
追蹤:記錄網路與物聯網的歷史軌跡,是許多大數據應用的起點。
-
辨識:在追蹤基礎上,透過定位、比對等實現精準辨識,例如對語言、圖像、影片的分析。
-
畫像:透過追蹤、辨識與匹配,對個人或企業形成更立體、全面的認識,用於精準行銷和風險判斷。
-
預測:在歷史軌跡與畫像基礎上,預測未來趨勢與重複發生的可能性,並給予提示與預警。
-
匹配:在大量資訊中進行篩選與比對,有效率地實現產品搭售和供需匹配,例如共享經濟模式。
-
最佳化:按照特定原則(如最短路徑、最低成本)配置資源,提高服務水準與效率。
大數據面臨的挑戰
雖然大數據的潛力巨大,但其實際應用仍面臨一些重要挑戰,特別是在資料交易方面:
-
資料隱私:如何保護使用者隱私資訊,避免資料濫用,是資料交易與應用中最大的挑戰。
-
資料所有權:資料作為一種生產資料,其所有權歸屬、交易後的二次售賣問題以及加工後的所有權歸屬尚未有明確定義。
-
資料合法性:在進行精準行銷時,是否需要事先徵得客戶同意,以及如何規範資料的使用,需要相關法律法規與監管機構來解決。
-
資料標準:缺乏跨組織、跨企業的統一資料標準,導致資料關聯困難,限制了大數據價值的發揮。例如,無法將不同系統(如醫院與公眾系統)的使用者資料有效關聯。
總體而言,大數據的發展需要解決從資料採集、運算、加工到應用的整個產業鏈問題,特別是資料標準化、資料隱私保護和監管等,才能真正發揮其巨大的商業與社會價值。