[Day10] Python應用-機器學習(Scikit-learn)-1

2024 iThome 鐵人賽

DAY 10

自我挑戰組

從零開始學Python系列第 10 篇

16th鐵人賽

pochama

2024-08-31 18:17:10

877 瀏覽

分享至

scikit-learn 是 Python 中一個提供了許多機器學習算法和工具，內建的資料庫又稱為玩具資料。

基本介紹(功能)

分類：將數據分類為不同的類別
回歸：預測數值型的輸出
聚類：將數據分組為相似的簇
降維：將數據的維度減少，如主成分分析(PCA)
模型選擇：包括交叉驗證和模型評估

安裝 scikit-learn

pip install scikit-learn

載入數據集

from sklearn import datasets
df_dia = datasets.load_diabetes()

檢視數據集

import pandas as pd

# 檢視數據集
print(df_dia.keys())
# 輸出：dict_keys(['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename', 'data_module'])

查看樣本的目標值(在回歸問題中，是我們想要預測的數值)

df_dia.target

6. 查看樣本特徵矩陣

df_dia.data

https://ithelp.ithome.com.tw/upload/images/20240901/201688111YNpahlClp.png

創建 DataFrame

# 獲取特徵矩陣和目標變量
X = df_dia.data
y = df_dia.target

# 創建 DataFrame
df = pd.DataFrame(data=X, columns=df_dia.feature_names)
df['target'] = y

# 顯示前幾行數據
df.head()

統計數據分析(平均值、標準差、最小值和最大值)

df.describe()

相關性分析

# 計算特徵和目標變量之間的相關性
correlation_matrix = df.corr()

# 顯示與目標變量相關的特徵
print(correlation_matrix['target'].sort_values(ascending=False))

[Day9] Python資料視覺化-Seaborn

[Day11] Python應用-機器學習(Scikit-learn)-2

系列文

從零開始學Python 共 30 篇

RSS系列文訂閱系列文

2 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從零開始學Python系列 第 10 篇

[Day10] Python應用-機器學習(Scikit-learn)-1

尚未有邦友留言

標記使用者

從零開始學Python系列第 10 篇