iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 2
0
自我挑戰組

Machine Learning 學習筆記系列 第 2

[第二天] 資料分析神兵利器 Python & Scikit-learn & Anaconda

大蟒蛇Anaconda

未來世界裡資料是石油是鑽石,那要選擇什麼挖礦機器才能符合我們呢。這裡有列了十種可以用上的語言與他們的優劣,對於資料分析來說或許R與Python都是不錯的選擇,不過從Python在各大書局架上火紅程度就選用它來學習吧。這邊也參考了2017年的BigDATA組冠軍 tonykuoyj 的文章條理分明很適合初學Python的人~~~因為時間關係python一些基本操作就先不介紹了,等有用到再來說明。我們就直接進入機器學習網站scikit-learn,快速了解一下如何從資料建立model並且對未知的資料做預測。我們可以根據scikit-learn地圖得知手中的data與要解決的問題決定適合哪一類的演算法。
/images/emoticon/emoticon35.gif
scikit-learn 首頁也將機器學習分六大類方便使用者學習

  • 分類(Classification)
  • 迴歸(Regression)
  • 分群(Clustering)
  • 降維(Dimensionality reduction)
  • 模型選擇(Model selection)
  • 預處理(Preprocessing)

上面所需要的套件我們只需要安裝Anaconda它是python的懶人包,大部分資料分析、機器學習、視覺化所需要的套件都準備好了,工欲善其事必先利其器!今天就先把這隻大蟒蛇灌入電腦中(根據電腦選定MacOS或Windows~)磨刀霍霍向Data~安裝流程參考
/images/emoticon/emoticon63.gif

資料來源

抓資料是一開始的必經之路然而python也有好用的爬蟲可以來爬資料,如何將網頁上的資料爬進來再轉成訓練的通用格式不是現在的重點,我們就先用已經準備好的資料像是sklearn資料集或者是kaggle資料集先來認識一下機器學習資料通常的格式吧,就用著名的鳶尾花資料集來了解一下常用的coding介面:Jupyter與Spyder,這裡有資料集詳細的解說~

Jupyter Notebook 介面

from sklearn import datasets  
import pandas as pd
iris = datasets.load_iris()    #導入鳶尾花資料集
x = pd.DataFrame(iris['data'],columns=iris['feature_names']) #這裡的特徵是花瓣的長寬
x

https://ithelp.ithome.com.tw/upload/images/20181016/20112303BGzatShgxj.png

Spyder 介面

https://ithelp.ithome.com.tw/upload/images/20181016/20112303uz2OKbhjsk.png

上面兩個介面是資料分析很常用的IDE,Jupyter Notebook 最大的優點就是程式碼可以分段執行,而Spyder則是可以看到變數的改變。各有優缺點在一開始行數比較少的時候使用Jupyter Notebook,當逐漸龐大的時候再轉到Spyder也行。今天就先介紹到這裡,明天再來學習一下Pandas一些常用功能~~

/images/emoticon/emoticon29.gif


上一篇
[第一天] 機器學習 RoadMap
下一篇
[第三天] Pandas 練習
系列文
Machine Learning 學習筆記30

尚未有邦友留言

立即登入留言