iT邦幫忙

2021 iThome 鐵人賽

DAY 30
0
AI & Data

後端工程師的ML入門理解與Vertex AI系列 第 30

延伸(2)-ML到底要不要念統計 | ML#Day30

就這半年以來的經驗,會覺得是需要。

既然資料是關鍵的部分,那麼判讀資料的組成和分佈,運用上統計的知識會更有效率。

有時候問題就是這樣,當你能夠了解問題在哪裡,才能夠試圖想辦法去解決問題。

想不想得出處理辦法是一回事,但是能夠判讀問題在哪個方向的價值,本身就不言而喻。

但畢竟統計也只是一種工具和手段,如果有其他方法替代,那也沒有非得說一定要把統計學得非常厲害才能做ML,有一些工具或分析程式可能提供類似的幫助。

不過還是要強調,ML其實就是統計的進階延伸,當然統計學能力越好,直接的幫助越大。


統計學不等於資料科學

就像Deep Learning算是Machine Learning的一部分,如統計學可能只是資料科學家擁有的能力之一,資料科學是更廣泛與模糊的能力統稱。

簡單舉例一個概念,資料和數字有沒有有效性,會不會有過期的問題,用統計學來看是不太有應用層面的考慮,純粹的學術計算,統計1天還是統計10年都是做統計,但資料學家會考慮時空背景。

資料在那些專家的眼裡,是會區分有價值和沒價值,或者根據狀況條件做分門別類。


值得重視的ML框架使用能力

程式框架的使用能力,如tensorflow,其實也是另外一個不容輕忽的技能,像是Vertex預設提供的AutoML模型若不滿意,想要進階的自行訓練模型,那就需要這方面的能力。

另外不論Vertex還是Azure提供的ML工具,都有提供 jupyter notebook的結合方式,換句話說還是提供自行設計模型的管道,只是運算可以丟到雲端處理。

畢竟怎麼設計合乎自己想要的應用題目,還是只有自己最清楚,如果是非常依靠或者重要ML吃飯的公司,這方面的能力需求大概免不了。


結語

所以最理想的方式,大概優秀的資料科學家+優秀的框架使用能力+擁有充分的運算資源

現實上太困難了,尤其想找到有經驗資料科學家,就有一定的門檻。

然而在目前既有的條件,如vertex這類的自動化服務,完全沒有資料科學家的能力可能還是差了一點,看能不能嘗試斜槓一下了。


上一篇
延伸(1)-ML接入團隊的原本開發生態 | ML#Day29
系列文
後端工程師的ML入門理解與Vertex AI30

尚未有邦友留言

立即登入留言