歡迎來到《AI 江湖本無路,有了 Data 便有了路》系列的第一天。在我們深入探討各種複雜的技術與架構之前,必須先回答一個根本問題:為什麼是「Data」?為什麼在這個 AI 浪潮席捲的時代,我們不先談演算法、不先談模型,而是反覆強調數據的重要性?
答案很簡單:如果 AI 是驅動未來的引擎,那數據就是讓這具引擎得以運轉的石油。
一個沒有數據的 AI 模型,就像一位學富五車卻從未見過真實世界的絕世高手,空有理論,卻無法解決任何實際問題。Netflix 的推薦系統如果沒有你的觀看紀錄(數據),它就無法猜到你下一部想看的影集;銀行的詐欺偵測 AI 如果沒有大量的交易紀錄(數據),它也無法分辨哪一筆交易是異常的。
「數據是新石油」這個比喻雖然貼切,但還不夠完整。因為原始數據 (Raw Data) 本身就像未經提煉的原油,充滿雜質,價值有限。它需要經過層層提煉,才能轉化為驅動決策的智慧。這個過程,我們可以用 DIKW 金字塔 來理解。
過去,從 Data 到 Wisdom 的過程高度依賴人類專家的經驗。但在今天,AI 扮演了加速器的角色。機器學習模型擅長從海量「資訊」中自動發掘「知識」(例如使用者行為模式),並將其轉化為自動化決策(例如即時商品推薦),大大縮短了價值實現的路徑。
可以說,AI 的任務,就是將數據提煉成知識,並將知識轉化為可規模化的行動。
第一天的修煉,我們的核心心法很簡單:正視數據的價值。接下來的 29 天,我們將一步步學習如何建構穩固的基礎設施、打造高效的煉油廠(Data Pipeline),最終將這些數據提煉成驅動 AI 引擎的超高純度燃料。