iT邦幫忙

2023 iThome 鐵人賽

DAY 18
0
AI & Data

跟我一起在AI的世界裡打怪獸系列 第 18

Day18 所以我說那個資料呢?-公開資料集

  • 分享至 

  • xImage
  •  

在建立機器學習的模型之前,我們要先找到可以用的資料集。

畢竟要做機器學習,總要先有資料吧?如果有些人是為了跑手上的資料才學機器學習倒還好,但是很多人學機器學習的時候手上可沒有資料。

這可怎麼辦?總不能把學校所有人叫出來量身高體重吧?


公開數據庫

公開數據庫的定義很廣泛,只要是提供公開數據的網站都算。因為許多在分析資料、做機器學習的人本身沒有資料,所以會從這些網站找資料來做使用。

常見的公開數據庫有:

函式庫內建的數據庫

有些函式庫本身就有內建的數據庫可以直接做讀取使用,像我們之前學過的sklearn就包含了許多資料集。

sklearn中的鳶尾花(Iris)資料集

這是在初學機器學習時非常常用到的資料集,當初我在學的時候也是用這個資料集XD

這邊來介紹一下鳶尾花卉數據集(Iris data set):

  • 包含了 150 筆資料
  • 記錄了鳶尾屬下山鳶尾(setosa)、變色鳶尾(versicolor)和維吉尼亞鳶尾(virginica)的資料
  • 每筆資料包含花萼長度、花萼寬度、花瓣長度、花瓣寬度與屬種。

可以看到,在這個資料集中,涵蓋了數值、類別型資料,而且還有三個屬種可以做比較分析。

導入鳶尾花數據集:

# 先載入需要的函式庫
from sklearn.datasets import load_iris

# 將數據及導入、放倒iris這個容器中
iris = load_iris()

資料導入的過程很簡單吧?之後我們簡單實作機器學習時,就會用到這個資料集哦!

結語

今天的內容比較短,但應該還蠻實用的。

雖然之後不一定會用到網路上的公開數據集(比如kaggle、UCT),但這些網站中提供的許多數據集都挺有趣的,會讓看到的人有想玩玩看他們之間到底有什麼關係的衝動,所以大家有空的時候可以上去看看!


上一篇
Day17 資料預處理-資料類型、缺失值、標準化、獨熱編碼、管道器
下一篇
Day19 羅吉斯迴歸
系列文
跟我一起在AI的世界裡打怪獸30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言