iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 1
2

在人工智慧浪潮爆發的現在,迎來了許多開源的機器學習框架,許多時候會有人認為資料一股腦地丟進了某個知名模型當中就可以不費吹灰之力的得到一個能精準預測的模型。

在我入門機器學習時,大量瀏覽機器學習的通俗課程,但回想起來很大比重的課程偏重於教學如何使用機器學習框架的API,省去了許多重要的核心觀念。且教學過程用的是極為簡單的toy dataset(這些dataset通常已經不需要自己下功夫去處理,一股腦丟進模型訓練總是最後能得到很好的結果),因此上完這些課程後有種幻覺,覺得自己有本事做出高精度模型來解決真實世界問題。在第一次參加Kaggle競賽以後的排名慘不忍睹,訓練的模型毫無優勢可言,當時才驚覺自己鄉巴佬的幻想,也才認識到“特徵工程”的重要性及印證了CS領域一句名言 “Garbage in, garbage out (GIGO)”。

特徵工程很重要,很重要,很重要。機器學習框架大量開源後,能接觸機器學習的門檻降低,大家的起跑點在差不多的位置,例如Kaggle的Kernel就可以下載到許多機器學習專家的模型代碼,而優化模型可以透過窮舉超參數(Hyper parameters)來得到使模型最優化的一組超參數(已經有API可以使用)。而如何將手上訓練資料的潛在資訊都能被利用,形成良好的辨識特徵,讓自己的機器學習模型可以從中學習到更多,是一門藝術,也是如何讓自己的預測模型更加出色的關鍵。

我將要探討的主題將是機器學習中的特徵工程。作為一名新科資料科學工程師,參加本次的IT鐵人賽對我特別意義重大,除了深化自己的工作技能以外,也希望透過自己的分享能幫助到需要入門的夥伴。在學習理念之餘,我也將實際用Kaggle的dataset來實作對照所學。


下一篇
為什麼特徵工程很重要
系列文
特徵工程 in 30 days23
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言