不管是資料探勘還是機器學習,訓練資料都相當重要。今天來分享一些以前別人分享的資源。
很多...有蠻多我沒用過得
先列出所有資源,方便查詢:
這次課程使用的GitHub倉庫,多數使用的是training-data-analyst/courses/machine_learning/deepdive/
底下的jupyter notebook。
UIC資料集可能是最早公開的資料集之一。
ImageNet曾經是每年舉辦的比賽(好像停賽了?)。裡面有豐富經標記的圖像,用於影響辨識的研究。
Mozilla Common Voice是前幾年,邀請自願者蒐集的聲音資料庫。
scikit-learn也包含一些經典的資料集。
PyTorch也是知名的機器學習工具,也有一些資料集可以使用。
這次重點的Tensorflow,也又另外一個package包含眾多資料集。
pip install -q tensorflow tensorflow-datasets matplotlib
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds
Kaggle不定期會舉行一些比賽,平台上也有不少開放資料集。