技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
2021 iThome 鐵人賽
DAY
9
0
AI & Data
Deep Learning 從零開始到放棄的 30 天 PyTorch 數字辨識模型
系列 第
9
篇
Day-08 比訓練更重要的事情,Dataset
13th鐵人賽
CrazyFire
2021-09-23 08:17:41
2617 瀏覽
分享至
昨天我們提過我們的目標是成功分類一組資料,那...資料哪來啊 OAO?總不能每次我要練習之前,還要像之前 Regression 自己生一份資料出來吧?
所以今天我們就要借用外面的開放式資料集,但...有哪些資料阿 OAO?
How to get Dataset
我們做機器學習一定有一個目標,也就是我們希望解決某些問題,因此針對這個問題我們會有相對應的資料
例如說,我們今天要進行氣象預測,或是天氣分類,就個問題就圍繞在天氣上,因此我們的資料一定就是跟天氣相關的資料,這就包含
溫度、濕度、日照、UV
等等這種東西,這種針對性的資料也就會是來自學術單位、研究機構等等部分,去做針對性地收集
那如果今天是希望作練習呢?有哪些地方可以收集到很棒的公開性資料來做練習嗎?
當然有,我們就後面慢慢介紹
Kaggle
Kaggle 是全世界公認最大的資料科學社群,全天候 24 小時都有來自世界各地的學術機構、公司行號等等在上面發布各種不同領域的資料科學
懸賞單
,也就是各式各樣高額獎金的競賽,因此會有很多學生、業界人士、各界領域的優秀人員在上面互相角逐、討論、分享,是一個非常棒的資料科學交流平台
此資料參考
Yeh James Kaggle 介紹
那 Kaggle 因為是全世界最大的一個資料科學社群,因此上面有大量公開的資料,因此如果想對某個領域做針對性的訓練練習,都可以這裡做資料的查詢使用
只是使用這部分的資料會需要注意幾個問題,
第一,Kaggle 上面的競賽大多比較困難(畢竟有點屬於解決方案懸賞),因此對於初學者而言,上面很多比賽不是那們適合的,而且資料集大多非常龐大,很不適合做為
練習
,但如果是有針對性的練習測試,上面的資料一定能滿足你的興趣
第二,Kaggle 上面涉及公司的資料大多有保密問題,因此會有資料解讀上的困難,還是需要有相關領域針對性的學習才比較好入手
所以如果是初學者,可以去找找看 Playground 或是 Getting Started 這類型的等級做出發,我們這次主題的數字辨識資料就是這等個等級的資料
想更加瞭解可以參考
Yeh James Kaggle介紹
Sklearn
scikit-learn 是用於 Python 程式語言的自由軟體機器學習庫,他算是一個工具函式庫,裡面還整理了很多資料,就包含提供了一個 dataset 提供簡單的引入使用
scikit-learn 不只有提供 dataset ,還有資料前處理函式庫,模型函式庫等等,可以說是非常多元
那我們明天 Logistic Regression 的實作就是利用 scikit-learn 提供的 Iris 資料集
Pytorch
Pytorch 本身也有收集練習用資料集給大家使用歐~後面也會直接使用給大家看~
本日小結
今天簡單的介紹了如何去獲取資料集的方法,當然還有各式各樣的平台跟競賽正在提供不同種類的資料集給大家去做競賽和練習,大家可以自己稍微做搜尋就好
一般實際應用端的部分,則會是需要自己去收集所需的資料,並進行整理規劃,來達到有效訓練的效果
明天就來看看如何利用 Logistic Regression 來實作 Iris 資料分類吧~
留言
追蹤
檢舉
上一篇
Day-07 Logistic Regression 介紹
下一篇
Day-09 Logistic Regression 實作(修正版)
系列文
Deep Learning 從零開始到放棄的 30 天 PyTorch 數字辨識模型
共
31
篇
目錄
RSS系列文
訂閱系列文
27
人訂閱
27
Day-26 手把手的手寫辨識模型 0x1:資料集整理
28
Day-27 手把手的手寫面是模型 0x2:資料訓練和結果輸出
29
Day-28 手把手的手寫辨識模型 0x3:CNN is the end?模型大哉問
30
Day-29 Pytorch 還可以更輕鬆更簡單!Pytorch Lightning
31
Day-30 不完美收工
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22195
篇
完賽人數
600
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
fortigate續約
家中獨有一台設備wifi會斷斷續續
Fortigate Let's encrypt憑證開啟http&https
兩端防火牆使用IPSEC互PING之問題
Windows7升級Windows10後網路功能異常
SAMBA加入到WINDOWS AD SERVER的網域後,無法使用CENTOS"本機"帳號進入SAMBA分享的資料夾
python爬蟲 動態生成網頁104人力銀行
區域網路問題提問
HeidiSQL 查詢結果亂碼問題
vmware 虛擬機(windows)裡顯示使用容量與實際檔案容量不符合
熱門回答
Fortigate 50B 重置密碼
區域網路問題提問
HeidiSQL 查詢結果亂碼問題
家中獨有一台設備wifi會斷斷續續
vmware 虛擬機(windows)裡顯示使用容量與實際檔案容量不符合
熱門文章
每日一篇學習筆記 直到我做完專題 :( [Day29]
每日一篇學習筆記 直到我做完專題 :( [Day30]
每日一篇學習筆記 直到我做完專題 :( [Day31]
每日一篇學習筆記 直到我做完專題 :( [Day32]
Python 進階爬蟲工具 -Selenium : 安裝和使用ChromeDriver
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}