在 Day2 提到什麼是用於生產的機械學習 ML in Production ,今天來談用於生產的機械學習所遇到的挑戰,主要挑戰包含:
要是整合性的機械學習系統。
要持續地在生產環境中維運。
要處理持續改變的資料流。
要控制電腦運算資源與成本。
而之所以成為挑戰,筆者設想學用兩端落差,摘述如下:
"O 到 1" 與 "1 到 N" 是不同層次的問題
相信學習人工智慧領域的人有越來越早觸及的趨勢,您可能在大學就有優秀又有熱誠的老師開設 "從0到1" 的人工智慧、機械學習、深度學習課程,研究所、研究室也有專題或論文指引方向解決問題,甚至您可能苦笑又自豪地說我就是個自學仔,取之於網路資源開始 AI 之路,您的堅持與努力都讓筆者相當欽佩,也真心崇拜與感謝如:李弘毅、林軒田、蔡炎龍等大神,猶如醍醐灌頂苦海明燈。
但 "1到N" 指的是將已有的 AI 模型佈署到服務數以萬計、億計人流的商業服務時,現況是學子們非常難有產業經驗,甚至許多企業也摸索不得其門,畢竟購置算力開銷不小,投入成本跟效益難以估算。也有來自 KDnuggets 的文章引述 2019 年有 87% AI 止步於落地之前,另外一篇文章也指出 AI 新創陣亡率高達 9 成。
追求預測的準確率 Accuracy 指的是平均準確率,最終比賽目標關注整體準確率,但對於隱藏在資料集的極端分佈或錯誤修正並非關注焦點,「 Responsible AI 」討論到 AI 系統的公平性、可解釋性、隱私性與安全性, ML 產品服務經不起種族、性別、就業歧視的指責,但數據競賽不見得要為此考量。