技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
2021 iThome 鐵人賽
DAY
9
0
AI & Data
Deep Learning 從零開始到放棄的 30 天 PyTorch 數字辨識模型
系列 第
9
篇
Day-08 比訓練更重要的事情,Dataset
13th鐵人賽
CrazyFire
2021-09-23 08:17:41
2586 瀏覽
分享至
昨天我們提過我們的目標是成功分類一組資料,那...資料哪來啊 OAO?總不能每次我要練習之前,還要像之前 Regression 自己生一份資料出來吧?
所以今天我們就要借用外面的開放式資料集,但...有哪些資料阿 OAO?
How to get Dataset
我們做機器學習一定有一個目標,也就是我們希望解決某些問題,因此針對這個問題我們會有相對應的資料
例如說,我們今天要進行氣象預測,或是天氣分類,就個問題就圍繞在天氣上,因此我們的資料一定就是跟天氣相關的資料,這就包含
溫度、濕度、日照、UV
等等這種東西,這種針對性的資料也就會是來自學術單位、研究機構等等部分,去做針對性地收集
那如果今天是希望作練習呢?有哪些地方可以收集到很棒的公開性資料來做練習嗎?
當然有,我們就後面慢慢介紹
Kaggle
Kaggle 是全世界公認最大的資料科學社群,全天候 24 小時都有來自世界各地的學術機構、公司行號等等在上面發布各種不同領域的資料科學
懸賞單
,也就是各式各樣高額獎金的競賽,因此會有很多學生、業界人士、各界領域的優秀人員在上面互相角逐、討論、分享,是一個非常棒的資料科學交流平台
此資料參考
Yeh James Kaggle 介紹
那 Kaggle 因為是全世界最大的一個資料科學社群,因此上面有大量公開的資料,因此如果想對某個領域做針對性的訓練練習,都可以這裡做資料的查詢使用
只是使用這部分的資料會需要注意幾個問題,
第一,Kaggle 上面的競賽大多比較困難(畢竟有點屬於解決方案懸賞),因此對於初學者而言,上面很多比賽不是那們適合的,而且資料集大多非常龐大,很不適合做為
練習
,但如果是有針對性的練習測試,上面的資料一定能滿足你的興趣
第二,Kaggle 上面涉及公司的資料大多有保密問題,因此會有資料解讀上的困難,還是需要有相關領域針對性的學習才比較好入手
所以如果是初學者,可以去找找看 Playground 或是 Getting Started 這類型的等級做出發,我們這次主題的數字辨識資料就是這等個等級的資料
想更加瞭解可以參考
Yeh James Kaggle介紹
Sklearn
scikit-learn 是用於 Python 程式語言的自由軟體機器學習庫,他算是一個工具函式庫,裡面還整理了很多資料,就包含提供了一個 dataset 提供簡單的引入使用
scikit-learn 不只有提供 dataset ,還有資料前處理函式庫,模型函式庫等等,可以說是非常多元
那我們明天 Logistic Regression 的實作就是利用 scikit-learn 提供的 Iris 資料集
Pytorch
Pytorch 本身也有收集練習用資料集給大家使用歐~後面也會直接使用給大家看~
本日小結
今天簡單的介紹了如何去獲取資料集的方法,當然還有各式各樣的平台跟競賽正在提供不同種類的資料集給大家去做競賽和練習,大家可以自己稍微做搜尋就好
一般實際應用端的部分,則會是需要自己去收集所需的資料,並進行整理規劃,來達到有效訓練的效果
明天就來看看如何利用 Logistic Regression 來實作 Iris 資料分類吧~
留言
追蹤
檢舉
上一篇
Day-07 Logistic Regression 介紹
下一篇
Day-09 Logistic Regression 實作(修正版)
系列文
Deep Learning 從零開始到放棄的 30 天 PyTorch 數字辨識模型
共
31
篇
目錄
RSS系列文
訂閱系列文
27
人訂閱
27
Day-26 手把手的手寫辨識模型 0x1:資料集整理
28
Day-27 手把手的手寫面是模型 0x2:資料訓練和結果輸出
29
Day-28 手把手的手寫辨識模型 0x3:CNN is the end?模型大哉問
30
Day-29 Pytorch 還可以更輕鬆更簡單!Pytorch Lightning
31
Day-30 不完美收工
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22189
篇
完賽人數
602
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
qr code生成多功能系統
Web Application 與Web Service 的差異
如何讓在中國的同事可以穩定的使用台灣總部的系統服務
administrators群組成員的管理員權限不見
AB兩點網路使用LTE數據機做連接
求救,erp 無法使用,ping封包 100% 丟失
JS 讀取EXCEL檔的日期字串如何轉換
電腦版Outlook 封存郵件無法包含有作標幟的郵件
如何以php抓取html文件的特定元素,並且依照抓取順序填入頁碼
fortigate 60E 配IP給無限AP問題
熱門回答
如何讓在中國的同事可以穩定的使用台灣總部的系統服務
求救,erp 無法使用,ping封包 100% 丟失
administrators群組成員的管理員權限不見
AB兩點網路使用LTE數據機做連接
fortigate 60E 配IP給無限AP問題
熱門文章
Win11 24H2 終於對 NTLM 動手了(感動
卷 31:iThome 鐵人賽寫作攻略——新手必看指南
Microservice Pattern 犧牲了什麼?
如何在Google Colab和Replit中請AI解說Python程式碼及相關天文觀念?
Python 中的「match 」/ 「switch」:一個不存在卻又存在的概念
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}