iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 4
0

第4天,我們來聊聊數據。今天沒有程式也沒有數學,開心吧。(謎之音:等等,你是不是報錯組別了。呃!別急大概第15天就會開始聊Google ML了。如果還撐住的話 XD)

好的,看了前一天分享,你應該在腦海裡會有一個神經網路的動畫在跳動。在那一大堆線裡,前面連著資料的輸入,後面連著分類的輸出,輸出結果再跟標籤比對,不正確的話,再透過反向傳播,是改變線的權重。再重來一次。直到比對正確為止。

上面說的過程,你覺得那個環節很不容易。是的,是標籤。在資料上加上標籤是很不容易的事。就像你去歐洲玩,隨便拍個1千張照片應該是很平常的事,但是拍完後沒再打開也是很平常的事。如果要你給每一張照片做註解整理一下,大概又是更難的事。懶人如我,頂多弄個資料夾,取名2019法瑞義,再把照片放進去就算仁至義盡,大功告成。給資料加上標籤真的是很累人的事。而且標籤還可能打錯,哈。

在看到李飛飛的演講跟報導後,我就對數據的重要性有感覺,所以今天要介紹你幾個影片。

李飛飛:我跟我的博士生鄧嘉說,我說你要是自己不吃不喝不睡,每天就坐在那標註這個圖片,你大概可以20年畢業吧。(影片傳送門)

哈,這句話實在太令我印象深刻了(好苦命的研究生!)。所以我就深深的記住,每次提到資料對深度學習的重要性,我往往就想到這個畫面。

再來就是李飛飛在TED的演講,18分鐘

你應該會看到,電腦影像辨識的困難、進步、限制。以及未來的發展。還有167個國家,約5萬人參與標註的圖像數據庫的ImageNet。

數據標註已經成為一個很大的產業,也是重要的發展。所以你可以看到很多關於數據標註產業的報導,因為沒有數據,沒法做研究阿!

不過數據的收集要注意各國法律的規定。不然就會有很大的問題。

當然你知道數據很重要後,也要對收集數據的程式有些感覺

然後你可能也不知不覺的在參與數據的標註,哈。

在練習 ML Study Jam 的課程時,倒是不用煩惱數據的事,課程裡的數據都找好了,只要匯入到 BigQuery 然後就可以繼續了。

今天就醬子吧。明天再戰。
希望你想起有標註的數據為什麼對深度學習很重要時,也有一個畫面閃過。

好,第4天。結束。
/images/emoticon/emoticon01.gif


上一篇
3Blue1Brown - 機器學習筆記
下一篇
ILSVR之重大事件筆記
系列文
「Google Machine Learning」學習筆記31

尚未有邦友留言

立即登入留言