這次要先來介紹一個概念:廣義化(Generalization)。
我們希望人工智慧具有很好的廣義化性質,當我們用資料去訓練模型時,我們很難把世界上所有的資料都給電腦看過一次,而是用有限、事先收集好的資料集來讓電腦學習,然而會希望電腦在對於沒有看過(unseen)的資料,也就是不是用來訓練模型的資料集裡的資料,能夠發揮一樣的效果,如此,這個模型才會有意義,這樣的概念就是廣義化。
然而,現有的演算法對於廣義化的成果其實都不如預期,尤其還有更深層次的問題,像是領域適應(Domain Adaptation),也就是下回要介紹的主題。有些人提出的解決方法,就是收集更多的資料來訓練,就可以解決了,我對此方法抱持著懷疑的態度,統計學裡有一句話是「All models are wrong, but some are useful.」,我們到底讓電腦學會了什麼才是最本質的問題,弄懂了這件事情可能才有機會去解決廣義化的問題吧。