iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 19
4
Big Data

我的資料科學之路系列 第 21

[Day 21] 材料✕方法✕解釋

  • 分享至 

  • xImage
  •  

之前不小心算錯天數,斷賽了@@"

不過我還是會繼續寫完30天的文章。

推荐一個影片給大家,這是資料科學愛好者年會召集人 陳昇瑋老師的演講
Yes

不用看完影片也可以繼續下面的文章。


以往的資料科學文章都講了機器學習、人工智慧、資料探勘的流程、資料科學應有的文化、統計,這篇文章由直觀的角度告訴你這些東西其來有自。

精神

大家應該都在很多其他的地方看過關於做資料科學或是資料探勘相關的流程,這些流程都隱隱約約透露出一些訊息。
既然資料科學名為科學,那就要符合科學的定義,基本上科學指的是一個可以被重複驗證的理論,他不因時間、空間或是操作者有所差異
做科學一定要有的就是標題寫的三樣東西:材料、方法、解釋。

材料

對資料科學來說,資料是個非常重要的材料,材料到位才有辦法開始工作。
跟傳統科學研究不同的是,資料科學講究儘量蒐集大量、品質好的資料,但是在資料之前要先問對問題
Big data的興起不是沒有原因,因為人們追求客觀及真實,人們渴望機器人幫我決定,人們希望有更高品質的決策。
追求客觀跟真實凸顯好資料的重要性,希望自動化的決策催生了人工智慧,更多的資料才有辦法做到高品質的決策!

方法

講究好的方法就像廚師挑選好的烹調技術跟廚具一樣,我認為資料科學中挑選工具跟調整工具就跟料理一樣是一門藝術,也是一門科學。
料理,是化學的展現;機器學習,是數學的結晶。
使用機器學習及人工智慧來處理資料,要處理的議題有

  1. feature selection
  2. overfitting
  3. model complexity
  4. model selection
  5. dimensional reduction
  6. 模型的選擇
  7. 學習演算法的調整
  8. 資料的前處理及轉換
  9. 錯誤資料的容忍度(data cleansing)

每個議題都是值得鑽研的部份,但是針對問題,還是必須回到domain knowledge上面,需求應該是由領域專家給出的才對。

解釋

好的科學研究通常伴隨著好的解釋方式!
如何對大眾說明結果是資料科學很重要的一環,這讓資料視覺化跟資訊設計的議題浮上了台面。
資料視覺化處理的問題是如何將抽象的資料轉成影像、影片,甚至是互動式的網頁做呈現
資訊設計則是更進一步以心理學及設計的角度切入,如何讓大眾更容易了解資訊,而不導致資訊吸收的偏誤或誤導,這些都是需要做功課的議題。

資料科學跨了非常多的領域,身為一個由不同領域組成的學門,又能應用其他到不同的場域。
需要的不是一個人單打獨鬥,而是一個資料科學團隊一起耕耘!


上一篇
[Day 20] Complex science
下一篇
[Day 22] Dimensional Reduction -- PCA
系列文
我的資料科學之路34
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

1
yuanshang
iT邦新手 4 級 ‧ 2017-01-12 00:56:19

"好的科學研究通常伴隨著好的解釋方式!",一點也沒錯,好的解釋就可以說個好故事,老闆買單,金主買單,社會大眾買單!

我要留言

立即登入留言