iT邦幫忙

2024 iThome 鐵人賽

DAY 4
0
Python

30天Python資料分析挑戰:從基礎到視覺化系列 第 4

Day 04: sklearn 套件介紹

  • 分享至 

  • xImage
  •  

Day 04: sklearn 套件介紹

在資料分析和機器學習中,scikit-learn(簡稱 sklearn)是 Python 中最強大、最受歡迎的套件之一。它提供了許多便捷的工具來進行數據預處理、模型訓練和評估,特別適合用來快速建立機器學習模型。

為什麼選擇 sklearn?

  • 簡單易用:sklearn 提供了清晰且易於理解的 API,無需太多複雜的設定,就能快速上手機器學習。
  • 豐富的工具:sklearn 包含了許多經典的機器學習算法,例如線性回歸、決策樹、支援向量機等,讓你能夠輕鬆應用到不同的問題上。
  • 內建資料集:為了方便學習和實驗,sklearn 內建了多個小型資料集,供我們直接使用,這對於初學者來說非常友好。

sklearn 的內建資料集

sklearn 提供了幾個經典的資料集供我們練習使用,這些資料集涵蓋了分類、回歸等多種問題類型。我們可以透過簡單的指令來讀取這些資料。

以下是幾個常見的內建資料集:

  • Iris:用於花卉分類的資料集,這是機器學習中的經典範例,包含 150 筆樣本,每筆樣本有 4 個特徵(例如花瓣長度、寬度等)。
  • Wine:用於葡萄酒分類的資料集,包含不同種類葡萄酒的化學成分數據。
  • Breast Cancer:用於預測乳腺癌良性或惡性的資料集。
  • Digits:手寫數字的圖像資料集,包含從 0 到 9 的數字圖片,每張圖片是 8x8 像素的灰階圖像。
  • Boston (已棄用):舊版的房價回歸資料集(因為倫理問題,這個資料集已經不建議使用)。

如何呼喚出內建資料集

我們可以使用 sklearn.datasets 模組來呼叫這些內建的資料集,並進行簡單的探索。讓我們來看一下如何使用這些資料集。

安裝 sklearn

如果你使用的是 Google Colab,sklearn 已經預先安裝好了,你可以直接使用。如果你在本地環境中使用,則需要先安裝它:

pip install scikit-learn

讀取內建資料集

點取+code的按鈕,可以新增code
https://ithelp.ithome.com.tw/upload/images/20240918/20140380deX85Ug7G9.png

(1) 以 Iris 資料集為例,我們可以這樣讀取並查看它的內容:

from sklearn.datasets import load_iris

# 讀取 Iris 資料集
iris = load_iris()
print(iris)

https://ithelp.ithome.com.tw/upload/images/20240918/201403802iLVT2RTk2.png

(2) 以 Wine 資料集為例,我們可以這樣讀取並查看它的內容:

from sklearn.datasets import load_wine

# 讀取 Wine 資料集
wine = load_wine()
print(wine)

https://ithelp.ithome.com.tw/upload/images/20240918/20140380XdxqrNnoIu.png

知道sklearn的套件裡面資料之後,明天我會以iris為例子來說明如何將資料輸出成CSV檔案。

如果有任何問題,歡迎私訊我的IG
我的IG


上一篇
Day 03: 安裝與設定Python環境
下一篇
Day 05: 講解 Iris 資料並輸出成 CSV 檔案
系列文
30天Python資料分析挑戰:從基礎到視覺化30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言