第 11 屆 iThome 鐵人賽

DAY 28

0

Google Developers Machine Learning

30天鍊成機器學習系列第 28 篇

數據集

11th鐵人賽

2019-10-13 23:33:57

3026 瀏覽

分享至

前言

做機器學習很重要的一個部份就是數據集。對於公司內部項目，你可能需要從搜尋數據開始，但是對於開發來說，你不會想花太多的時間整理數據，幸好現在有很多的開源數據集可以讓你直接拿來訓驗或是驗証模型。

首先記住挑適合適數據集的幾個要點：

乾淨的數據集，因為你不想浪費時間自己清理數據。
尋找沒有太多行和列的數據集，因為它們更容易處理。
應該有一個有趣的問題可以用數據集來回答。

學習機器學習的最好方法是在不同的項目中練習。您可以使用這些主要的數據集查找程序在線搜索和下載免費數據集。

Kaggle:一個包含各種外部提供的有趣數據集的數據科學站點。你可以在它的主列表中找到各種小眾數據集，從拉麵評分到籃球數據，甚至西雅圖的寵物許可證。

UCI機器學習資源庫:web上最古老的數據集來源之一，是尋找有趣數據集的最佳起點。盡管數據集是用戶貢獻的，因此具有不同程度的清潔度，但絕大多數是幹凈的。您可以直接從UCI機器學習存儲庫下載數據，無需註冊。

公共政府數據集

gov:這個網站可以從多個美國政府機構下載數據。數據範圍從政府預算到學校成績。但要註意:許多數據需要進一步研究。
食物環境地圖集:包含有關美國當地食物選擇如何影響飲食的數據。
學校系統財務:美國學校系統財務調查。
慢性病數據:美國各地的慢性病指標數據。
美國國家教育統計中心:美國和世界各地的教育機構和教育人口統計數據。
英國數據服務:英國最大的社會、經濟和人口數據收集。
美國數據:美國公共數據的全面可視化。

財經數據集

Quandl:一個很好的經濟和金融數據來源——對建立預測經濟指標或股票價格的模型很有用。
世界銀行公開數據:數據集涵蓋人口統計數據和來自世界各地的大量經濟和發展指標。
國際貨幣基金組織(IMF)數據:國際貨幣基金組織(IMF)發布有關國際金融、債務率、外匯儲備、大宗商品價格和投資的數據。
金融時報市場數據:世界各地金融市場的最新信息，包括股票價格指數、商品和外匯。
谷歌趨勢:檢查和分析互聯網搜索活動的數據和世界各地的趨勢新聞故事。
美國經濟協會(AEA):查找美國宏觀經濟數據的好來源。

計算機視覺的圖像數據集

ImageNet:用於新算法的實際圖像數據集。是根據WordNet層次結構組織的，其中層次結構的每個節點由成百上千個圖像表示。
LSUN:場景理解與許多輔助任務(房間布局估計、顯著性預測等)
COIL100:以360度旋轉的角度拍攝100個不同的物體。
視覺基因組:非常詳細的視覺知識庫與字幕約100K圖像。
谷歌的開放圖片:在知識共享下，900萬個鏈接到圖片“已經被超過6000個類別的標簽標註”。
在野外標記的面孔:13000張人類面孔的標記圖像，用於開發涉及面部識別的應用程序。
史丹佛數據集:包含20580張圖片和120個不同的狗品種類別。
室內場景識別:一個非常具體的數據集，非常有用，因為大多數場景識別模型都更好的“外部”。包含67個室內類別，共計15620張圖片。

情感分析數據集

多域情緒分析數據集:一個稍微老一點的數據集，以來自Amazon的產品評論為特征。
IMDB評論:一個較老的、相對較小的用於二元情緒分類的數據集，包含25,000個電影評論。
斯坦福情緒樹銀行:標準的情緒數據集與情緒註釋。
情感140:一個流行的數據集，它使用了16萬條預先刪除了表情的推文。
美國航空公司情緒:2015年2月美國航空公司的Twitter數據，分為正面、負面和中性的推文

自然語言處理數據集

安然數據集:來自安然高級管理層的電子郵件數據，組織成文件夾。
亞馬遜評論:包含大約3500萬篇亞馬遜評論，跨越18年。數據包括產品和用戶信息、評分和明文評論。
Google Books Ngrams:谷歌書籍中的單詞集合。
博主語料庫:從blogger.com收集的681,288篇博客文章。每個博客至少包含200個常用英語單詞。
Wikipedia鏈接數據:Wikipedia的全文。該數據庫包含400多萬篇文章中的近19億詞。你可以通過單詞，短語或段落的一部分來搜索。
古登堡電子書列表:古登堡項目的電子書註釋列表。
加拿大議會的文本塊:來自第36屆加拿大議會記錄的130萬對文本。
《危險邊緣》:智力競賽節目《危險邊緣》中超過20萬個問題的存檔。
英文垃圾短信收集:包含5574條英文垃圾短信的數據集
Yelp評論:Yelp發布的一個開放數據集，包含超過500萬條評論。
UCI的Spambase:一個大型的垃圾郵件數據集，用於垃圾郵件過濾。

自動駕駛車輛的數據集

伯克利DeepDrive BDD100k:目前自動駕駛人工智能最大的數據集。包含超過100,000個視頻超過1100小時的駕駛經驗，跨越不同的時間和天氣條件。這些帶註釋的圖片來自紐約和舊金山地區。
百度Apolloscapes:大型圖像數據集，定義26種不同的語義項，如汽車、自行車、行人、建築物、路燈等。
逗號。艾:超過7小時的高速公路駕駛。詳細信息包括汽車的速度、加速度、轉向角和GPS坐標。
牛津的機器人車:在一年的時間裏，在英國牛津拍攝了100多次相同路線的重覆。數據集捕捉了天氣、交通和行人的不同組合，以及建築和道路工程等長期變化。
城市景觀數據集:記錄50個不同城市的城市街景的大型數據集。
CSSAD數據集:該數據集對自動駕駛車輛的感知和導航非常有用

轉換腳本到Tensorflow2.0

系列文

30天鍊成機器學習共 30 篇

目錄

RSS系列文訂閱系列文

17 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙