[Day30] Kaggle的解題挑戰 2018版 - scikit-learn - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 29

自我挑戰組

Kaggle的解題挑戰 2018版系列第 29 篇

[Day30] Kaggle的解題挑戰 2018版 - scikit-learn

2019鐵人賽

Senior Bill

2018-10-31 01:02:47

2016 瀏覽

分享至

今天是鐵人30天的最後一天了，不過，由於還沒挑戰到最重的Kaggle題目，所以明天應該會再寫一篇，順便做個結尾，今天的話主要來講一下重頭戲，Sci-kit Learning，這是一個Machine Learning的Library，不過，其實也和昨天寫到的SciPy Lib類似，重點還是要了解各個Machine Learning後來代表的意義才是重點，我之前因為是研究Data Mining相關的主題，所以對這類的演算法，也算是有一定程度的了解，但好像也沒做出什麼比較特別的東西過就是了。

大家想有更進一步的了解，可以看我提供的參考資料，另外就是scikit-learn這東西，主要有提供幾個模組來給大家使用。

Classification, Clustering, Regression都算是做學習的演算法的部分，Dimensionality reduction和Preprocessing比較算是資料前處理的部分，Model selection看來應該是比較不同演算法的結果。

簡單來說一下一般機器學習的步驟，雖然，聽起來，好像機器學習的演算法是最困難的部分，但由於目前都有現成寫好的演算法了，除非你需要客制化一些演算法，要不然，一般都只需要調整參數就好了，所以真實工作上大部分的時間都會花在資料前處理的部分，可以佔到工時的8成這樣，因為資料前處理其實也是可以再細分成很多步驟，比如資料儲存、過濾、和收集等等，目前大量資料都會使用一些Big Data和NoSql的技術來處理，有了資料之後，我們就可以利用資料來學習訓練出Model，這個Model就是現實中，我們拿來預測的黑盒子，而在訓練的手法上，我們比較常會使用將資料切成n等分，然後取某一份來當作測試資料，或是輪流訓練和測試，來得到最好的Model，這個過程式是資料科學家的經驗和價值的地方了。

參考資料:
Scikit-Learn 教學：Python 與機器學習
 Offical Website
Scikit-learn 套件的安裝