前言
做機器學習很重要的一個部份就是數據集。對於公司內部項目,你可能需要從搜尋數據開始,但是對於開發來說,你不會想花太多的時間整理數據,幸好現在有很多的開源數據集可以讓你直接拿來訓驗或是驗証模型。
首先記住挑適合適數據集的幾個要點:
- 乾淨的數據集,因為你不想浪費時間自己清理數據。
- 尋找沒有太多行和列的數據集,因為它們更容易處理。
- 應該有一個有趣的問題可以用數據集來回答。
學習機器學習的最好方法是在不同的項目中練習。您可以使用這些主要的數據集查找程序在線搜索和下載免費數據集。
Kaggle:一個包含各種外部提供的有趣數據集的數據科學站點。你可以在它的主列表中找到各種小眾數據集,從拉麵評分到籃球數據,甚至西雅圖的寵物許可證。
UCI機器學習資源庫:web上最古老的數據集來源之一,是尋找有趣數據集的最佳起點。盡管數據集是用戶貢獻的,因此具有不同程度的清潔度,但絕大多數是幹凈的。您可以直接從UCI機器學習存儲庫下載數據,無需註冊。
公共政府數據集
- gov:這個網站可以從多個美國政府機構下載數據。數據範圍從政府預算到學校成績。但要註意:許多數據需要進一步研究。
- 食物環境地圖集:包含有關美國當地食物選擇如何影響飲食的數據。
- 學校系統財務:美國學校系統財務調查。
- 慢性病數據:美國各地的慢性病指標數據。
- 美國國家教育統計中心:美國和世界各地的教育機構和教育人口統計數據。
- 英國數據服務:英國最大的社會、經濟和人口數據收集。
- 美國數據:美國公共數據的全面可視化。
財經數據集
- Quandl:一個很好的經濟和金融數據來源——對建立預測經濟指標或股票價格的模型很有用。
- 世界銀行公開數據:數據集涵蓋人口統計數據和來自世界各地的大量經濟和發展指標。
- 國際貨幣基金組織(IMF)數據:國際貨幣基金組織(IMF)發布有關國際金融、債務率、外匯儲備、大宗商品價格和投資的數據。
- 金融時報市場數據:世界各地金融市場的最新信息,包括股票價格指數、商品和外匯。
- 谷歌趨勢:檢查和分析互聯網搜索活動的數據和世界各地的趨勢新聞故事。
- 美國經濟協會(AEA):查找美國宏觀經濟數據的好來源。
計算機視覺的圖像數據集
- ImageNet:用於新算法的實際圖像數據集。是根據WordNet層次結構組織的,其中層次結構的每個節點由成百上千個圖像表示。
- LSUN:場景理解與許多輔助任務(房間布局估計、顯著性預測等)
- COIL100:以360度旋轉的角度拍攝100個不同的物體。
- 視覺基因組:非常詳細的視覺知識庫與字幕約100K圖像。
- 谷歌的開放圖片:在知識共享下,900萬個鏈接到圖片“已經被超過6000個類別的標簽標註”。
- 在野外標記的面孔:13000張人類面孔的標記圖像,用於開發涉及面部識別的應用程序。
- 史丹佛數據集:包含20580張圖片和120個不同的狗品種類別。
- 室內場景識別:一個非常具體的數據集,非常有用,因為大多數場景識別模型都更好的“外部”。包含67個室內類別,共計15620張圖片。
情感分析數據集
- 多域情緒分析數據集:一個稍微老一點的數據集,以來自Amazon的產品評論為特征。
- IMDB評論:一個較老的、相對較小的用於二元情緒分類的數據集,包含25,000個電影評論。
- 斯坦福情緒樹銀行:標準的情緒數據集與情緒註釋。
- 情感140:一個流行的數據集,它使用了16萬條預先刪除了表情的推文。
- 美國航空公司情緒:2015年2月美國航空公司的Twitter數據,分為正面、負面和中性的推文
自然語言處理數據集
- 安然數據集:來自安然高級管理層的電子郵件數據,組織成文件夾。
- 亞馬遜評論:包含大約3500萬篇亞馬遜評論,跨越18年。數據包括產品和用戶信息、評分和明文評論。
- Google Books Ngrams:谷歌書籍中的單詞集合。
- 博主語料庫:從blogger.com收集的681,288篇博客文章。每個博客至少包含200個常用英語單詞。
- Wikipedia鏈接數據:Wikipedia的全文。該數據庫包含400多萬篇文章中的近19億詞。你可以通過單詞,短語或段落的一部分來搜索。
- 古登堡電子書列表:古登堡項目的電子書註釋列表。
- 加拿大議會的文本塊:來自第36屆加拿大議會記錄的130萬對文本。
- 《危險邊緣》:智力競賽節目《危險邊緣》中超過20萬個問題的存檔。
- 英文垃圾短信收集:包含5574條英文垃圾短信的數據集
- Yelp評論:Yelp發布的一個開放數據集,包含超過500萬條評論。
- UCI的Spambase:一個大型的垃圾郵件數據集,用於垃圾郵件過濾。
自動駕駛車輛的數據集
- 伯克利DeepDrive BDD100k:目前自動駕駛人工智能最大的數據集。包含超過100,000個視頻超過1100小時的駕駛經驗,跨越不同的時間和天氣條件。這些帶註釋的圖片來自紐約和舊金山地區。
- 百度Apolloscapes:大型圖像數據集,定義26種不同的語義項,如汽車、自行車、行人、建築物、路燈等。
- 逗號。艾:超過7小時的高速公路駕駛。詳細信息包括汽車的速度、加速度、轉向角和GPS坐標。
- 牛津的機器人車:在一年的時間裏,在英國牛津拍攝了100多次相同路線的重覆。數據集捕捉了天氣、交通和行人的不同組合,以及建築和道路工程等長期變化。
- 城市景觀數據集:記錄50個不同城市的城市街景的大型數據集。
- CSSAD數據集:該數據集對自動駕駛車輛的感知和導航非常有用