iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 29
0
自我挑戰組

Kaggle的解題挑戰 2018版系列 第 29

[Day30] Kaggle的解題挑戰 2018版 - scikit-learn

今天是鐵人30天的最後一天了,不過,由於還沒挑戰到最重的Kaggle題目,所以明天應該會再寫一篇,順便做個結尾,今天的話主要來講一下重頭戲,Sci-kit Learning,這是一個Machine Learning的Library,不過,其實也和昨天寫到的SciPy Lib類似,重點還是要了解各個Machine Learning後來代表的意義才是重點,我之前因為是研究Data Mining相關的主題,所以對這類的演算法,也算是有一定程度的了解,但好像也沒做出什麼比較特別的東西過就是了。

大家想有更進一步的了解,可以看我提供的參考資料,另外就是scikit-learn這東西,主要有提供幾個模組來給大家使用。
https://ithelp.ithome.com.tw/upload/images/20181028/20103074HEh47Dysul.png
Classification, Clustering, Regression都算是做學習的演算法的部分,Dimensionality reduction和Preprocessing比較算是資料前處理的部分,Model selection看來應該是比較不同演算法的結果。

簡單來說一下一般機器學習的步驟,雖然,聽起來,好像機器學習的演算法是最困難的部分,但由於目前都有現成寫好的演算法了,除非你需要客制化一些演算法,要不然,一般都只需要調整參數就好了,所以真實工作上大部分的時間都會花在資料前處理的部分,可以佔到工時的8成這樣,因為資料前處理其實也是可以再細分成很多步驟,比如資料儲存、過濾、和收集等等,目前大量資料都會使用一些Big Data和NoSql的技術來處理,有了資料之後,我們就可以利用資料來學習訓練出Model,這個Model就是現實中,我們拿來預測的黑盒子,而在訓練的手法上,我們比較常會使用將資料切成n等分,然後取某一份來當作測試資料,或是輪流訓練和測試,來得到最好的Model,這個過程式是資料科學家的經驗和價值的地方了。

參考資料:
Scikit-Learn 教學:Python 與機器學習
Offical Website
Scikit-learn 套件的安裝


上一篇
[Day29] Kaggle的解題挑戰 2018版 - Scipy Lib
下一篇
[Day31] Kaggle的解題挑戰 2018版 - Kaggle實戰 Titanic
系列文
Kaggle的解題挑戰 2018版30

尚未有邦友留言

立即登入留言