機器學習中的人之議題(3)：難以被理解的複雜模型

第 12 屆 iThome 鐵人賽

DAY 21

Software Development

在AI的時代追求人性系列第 21 篇

12th鐵人賽

愛煮飯的小72

2020-10-05 22:31:42

1819 瀏覽

分享至

前一篇討論了人工智慧/機器學習中的歧視與刻板印象的強化，
這篇要繼續延伸討論另一個相關議題：
難以被理解的複雜模型。

儘管複雜的東西本來就比簡單的東西難理解，
很多時候要理解一樣複雜的東西，
需要很多背景知識。

但機器學習之中卻有很多複雜的東西，
是沒有人知道它為什麼可以得到好的結果的。
也就是說，就算是專業的人工智慧科學家，
也不一定總是可以理解為什麼對機器學習的模型，
做出某一個調整後，能夠得到好的結果。

在比較早期機器學習發展的時候，
常見的一些機器學習模型設計，
像是決策樹（Decision Tree）或是
支持向量機（Support Vector Machine）、
他的複雜度可能是來自於很多的特徵值，
或是基於基本模型延伸更複雜的設計，
像是決策森林（Decision Forests)，
或是使用一些變換函數（Kernel Function）去改變
資料的基本分佈空間等等的。
還有每個模型都會有一些「參數（Parameters）」
一但變得複雜，很多時候可能即使是人工智慧科學家，
也不一定可以很好掌握該怎麼樣可以改進結果，
或是即使改進了，也沒有很好的方式解釋為什麼。

這個情況在非監督式學習裡也有。
例如「分群（Clustering）」的問題，
也就是根據資料的性質，把它分成N個族群。
很多時候分群的結果都很難被理解。

另一個非監督式學習的問題是
「主題模型（Topic Modeling）」，
也就是把文本自動分成N個主題的問題，
他也是一種分群的問題，
但他強調文本之間的關聯性。
其中最常見的演算法叫做
「Latent Dirichlet Allocation（LDA)」，
它的原理是根據字詞在文件中出現的頻率，
一個字如果在越少文件出現，
但出現很多次，
你可以想像他是一個主題比較關鍵的字。
比如說我在討論前端開發會出現很多Angular啊，
React啊，這些著名的前端框架，
但在其他主題裡這些字較少出現，
你就可以說Angular/React是前端開發的主題的代表字。
然而這個演算法也是理論非常漂亮，
但實務上去做，很多時候很難解釋為什麼得到那樣的結果，
很多推出來的主題也都很不合理。