那到底什麼叫做AI辨識呢?怎麼判斷電腦已經超過人腦呢?
人類的視覺辨識錯誤率大約5%左右,下圖可明顯對照, 2015年之後的ILSVRC冠軍的深度學習的模型, 已遠遠打敗人腦。
從ILSVRC的停辦可以得知, 大家對電腦視覺技術的期待已由相當成熟的 image identification 轉向尚待開發的 image understanding。
什麼是image understanding呢?就是看圖說故事啦。可以續看李飛飛博士2017年的演講槁得到大概的理解。
2018年起,將由WebVision競賽(Challenge on Visual Understanding by Learning from Web Data)來接手, 當然李飛飛博士也有提到的Kaggle+ImageNet的願景, 要讓AI深度學習更貼近真實世界, 就要從真實世界取來的資料做訓練。
那到底ImageNet上的深度學習Model怎麼模擬人眼的?先來看一下下圖裡歷屆冠軍的傑作:
也許你會有疑問, ILSVRC不是從2010辦的嗎?怎麼圖中只有2012年到2017年的模型?因為2010跟2011年所用的方法, 只能稱為feature engineering, 就是把特徵值取出來, 到2012年AlexNet橫空出世後, 視覺辨識才正式進入到AI深度學習的領域。
接來下小編一個一個介紹AlexNet之後的模型, 在這之前, 電腦能分辨下圖, 各位的眼睛能分辨嗎?