iT邦幫忙

2024 iThome 鐵人賽

DAY 10
0
自我挑戰組

從零開始學Python系列 第 10

[Day10] Python應用-機器學習(Scikit-learn)-1

  • 分享至 

  • xImage
  •  

scikit-learn 是 Python 中一個提供了許多機器學習算法和工具,內建的資料庫又稱為玩具資料。

  1. 基本介紹(功能)
  • 分類:將數據分類為不同的類別
  • 回歸:預測數值型的輸出
  • 聚類:將數據分組為相似的簇
  • 降維:將數據的維度減少,如主成分分析(PCA)
  • 模型選擇:包括交叉驗證和模型評估

  1. 安裝 scikit-learn
pip install scikit-learn
  1. 載入數據集
from sklearn import datasets
df_dia = datasets.load_diabetes()
  1. 檢視數據集
import pandas as pd
# 檢視數據集
print(df_dia.keys())
# 輸出:dict_keys(['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename', 'data_module'])
  1. 查看樣本的目標值(在回歸問題中,是我們想要預測的數值)
df_dia.target

https://ithelp.ithome.com.tw/upload/images/20240901/20168811DwIlBLosXh.png
6. 查看樣本特徵矩陣

df_dia.data

https://ithelp.ithome.com.tw/upload/images/20240901/201688111YNpahlClp.png

  1. 創建 DataFrame
# 獲取特徵矩陣和目標變量
X = df_dia.data
y = df_dia.target

# 創建 DataFrame
df = pd.DataFrame(data=X, columns=df_dia.feature_names)
df['target'] = y

# 顯示前幾行數據
df.head()

https://ithelp.ithome.com.tw/upload/images/20240901/20168811WevokBlYKw.png

  1. 統計數據分析(平均值、標準差、最小值和最大值)
df.describe()

https://ithelp.ithome.com.tw/upload/images/20240901/20168811gNYUT6k885.png

  1. 相關性分析
# 計算特徵和目標變量之間的相關性
correlation_matrix = df.corr()

# 顯示與目標變量相關的特徵
print(correlation_matrix['target'].sort_values(ascending=False))

https://ithelp.ithome.com.tw/upload/images/20240901/20168811LYvYxX2afw.png


上一篇
[Day9] Python資料視覺化-Seaborn
下一篇
[Day11] Python應用-機器學習(Scikit-learn)-2
系列文
從零開始學Python30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言