就這半年以來的經驗,會覺得是需要。
既然資料是關鍵的部分,那麼判讀資料的組成和分佈,運用上統計的知識會更有效率。
有時候問題就是這樣,當你能夠了解問題在哪裡,才能夠試圖想辦法去解決問題。
想不想得出處理辦法是一回事,但是能夠判讀問題在哪個方向的價值,本身就不言而喻。
但畢竟統計也只是一種工具和手段,如果有其他方法替代,那也沒有非得說一定要把統計學得非常厲害才能做ML,有一些工具或分析程式可能提供類似的幫助。
不過還是要強調,ML其實就是統計的進階延伸,當然統計學能力越好,直接的幫助越大。
就像Deep Learning算是Machine Learning的一部分,如統計學可能只是資料科學家擁有的能力之一,資料科學是更廣泛與模糊的能力統稱。
簡單舉例一個概念,資料和數字有沒有有效性,會不會有過期的問題,用統計學來看是不太有應用層面的考慮,純粹的學術計算,統計1天還是統計10年都是做統計,但資料學家會考慮時空背景。
資料在那些專家的眼裡,是會區分有價值和沒價值,或者根據狀況條件做分門別類。
程式框架的使用能力,如tensorflow,其實也是另外一個不容輕忽的技能,像是Vertex預設提供的AutoML模型若不滿意,想要進階的自行訓練模型,那就需要這方面的能力。
另外不論Vertex還是Azure提供的ML工具,都有提供 jupyter notebook的結合方式,換句話說還是提供自行設計模型的管道,只是運算可以丟到雲端處理。
畢竟怎麼設計合乎自己想要的應用題目,還是只有自己最清楚,如果是非常依靠或者重要ML吃飯的公司,這方面的能力需求大概免不了。
所以最理想的方式,大概優秀的資料科學家
+優秀的框架使用能力
+擁有充分的運算資源
。
現實上太困難了,尤其想找到有經驗資料科學家,就有一定的門檻。
然而在目前既有的條件,如vertex這類的自動化服務,完全沒有資料科學家的能力可能還是差了一點,看能不能嘗試斜槓一下了。