Day 25. AI × Data - 進行AI專案（二） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 26

AI & Data

OH～ AI 原來如此，互助就此開始！系列第 26 篇

Day 25. AI × Data - 進行AI專案（二）

14th鐵人賽

henry_chen

2022-10-10 19:50:28

1911 瀏覽

分享至

接續昨天的部分，之前有提過收集的資料是公司的貴重資產，這是為什麼呢？
我們知道 GPT-3 已經展示了，如果用更多的資料訓練，性能會比資料少的好，但是訓練較多的資料意味著需要更多的計算能力。

ーー　AI 訓練用計算機的數量成長。出處：The Economist

透過上圖可以看到，隨著訓練資料的暴增，計算機的需求數目成指數性成長。

資料怎麼成為企業的護城河

你可能有聽說過摩爾定律（Moore's law）：晶片上可容納的電晶體數目，約18個月就會增加一倍。也就是晶片的效能成長非常快速。但是隨著快速成長，目前似乎已經到了物理的瓶頸，甚至有了摩爾定律已死的說法。計算機效能成長已經沒有那麼快速，但是需求數目卻一直增加的結果，就是訓練成本非常昂貴。

所以根據需求，與其花大錢自己訓練，有的公司會付費使用第三方雲端服務，經由第三方提供預先訓練好的神經網路來建立符合自己需求的產品。但是如果所有人都是使用雲端服務的模型，那怎麼做出藍海策略的差異化？差別就在於資料。

比方說 Day 15 介紹過的魚種辨識，如果不是捕魚這個產業不會有如此大量的魚種照片，透過建立起各種魚的圖片資料庫，可以增加辨識成功率，成功率越高，使用者就越多，透過使用者的實際使用，又增加更多的照片，然後回饋給模型讓辨識率更精準。結果就造成正向循環，成功率提高→使用者變多→資料變多→成功率變高→使用者變多...。這個就是經濟護城河理論提到的網路效應，那麼即便有新的對手想要進入這個產業服務，沒有如此龐大的魚類資料和使用者人數，很難和我們競爭。

訓練模型

收集完資料就要開始訓練，初期的時候模型預測精確度會上升的很快，大概到了一定的程度就會很難提升，這時候就需要做 AI 系統的調整。

模型的調整

我們來複習一下 AI 系統：

ーー 出處：A Chat with Andrew on MLOps: From Model-centric to Data-centric AI

因此要調整模型的話也就是從程式和資料來下手。

程式（Code）
- 調整演算法
  調整超參數，例如增加 epoch 次數和調整每層的結構。
- 換掉整個模型
  參考最新論文做模型改善。
資料（Data）
- 增加資料
  收集更多的相關資料
- 整理資料
  提高資料的品質，增加準確度。
  特別是非結構式的資料，我們有提過資料為中心的 AI可能比模型為中心的 AI更能提高準確度。

從錯誤中反覆地摸索逐漸提高預測精確度。

概念性驗證（PoC，Proof of Concept）

之前評估專案（Assessment）是先調查有沒有人做過類似的事，事前確認模型的可行性以及資料能否收集得到。而概念性驗證則是真的做看看，對模型和資料收集做可行性驗證。

不過即便透過資料收集和模型訓練達到了要求的精確度，也很難保證 AI 哪些可以成功預測，哪些不能成功預測，而如果像醫療產業這種不能成功預測風險就很大的產業，最終還是要 AI + 人的互相協助（人機協作），也就是 AI 進行流程作業，人類再根據成果做調整確認，降低整體的風險才能進入到實際部署階段。

部署模型

部署環境的評估

為了讓資料可以持續累積回饋做訓練，針對不同的部署有不同的考量。

雲端運算
透過 API 將輸入傳給遠端伺服器（Server）做運算的時候，要考量到公有雲（Public Cloud，外部第三方的伺服器）或私有雲（Private Cloud，公司內部的伺服器）的計算能力是否足夠的問題，如果不足而同時又有多個據點向伺服器要求運算時反而會造成更多的成本支出。
邊緣運算
邊緣端通常一個模組就是一個裝置負責的關係，基本計算能力應該是考量好了，反而要注意的是怎麼遠端做模型更新，以及萬一裝置故障時有什麼替代方案。

深度學習的模型都蠻大的，而邊緣端的硬體通常配備不會太高，為了讓配備不夠高的邊緣端（像是物聯網設備）也可以跑得動模型，就需要做模型壓縮（Model Compression）讓模型縮小，常用的有三種：

剪枝（Pruning）
將不重要的權重 (weight) 刪除歸零，在盡量不影響準確度的情況下減少參數的數目。
量化（Quantization）
將保存每個權重的浮點數（32 位元）轉換成整數（8位元），尺寸大小因此變1/4，速度可以快2到3倍。
知識蒸餾（Knowledge Distillation）
通常用在分類問題，將一個訓練好的大型模型當作教師（Teacher），而讓另一個小的模型作為學生（Student）透過蒸餾過的知識去學習。

所謂的知識也就是教師預測出各類別的機率，由於 softmax 會把所有的類別機率分布成總和為 1，正確的類別會接近 1，其他類別會接近 0，也就是分布較為陡峭，看不出其他類別隱含的訊息。所以使用一個溫度參數 T （temperature），透過數值較大的 T 也就是高溫讓 softmax 分布較為平坦，其他類別的數值會相對較大，可以看出不同類別的相似度。

ーー 出處：Distillation 論文

T 如果為 1 就是原本的 softmax

這樣的手法叫做蒸餾（Distillation），而學生預測出來的結果和蒸餾過的知識之間的誤差叫做 Soft target loss，透過這樣的誤差去做學習讓學生的預測逼近老師的準確度。

蒸餾和轉移學習差別在蒸餾不會直接使用教師的權重。