Day27: 超參數 x 複雜度

第 11 屆 iThome 鐵人賽

DAY 27

Google Developers Machine Learning

初心者的GDC攻略系列第 27 篇

11th鐵人賽

r00t4dog

2019-10-13 15:54:03

1395 瀏覽

分享至

如何定義一個機器學習模型的複雜度

現實生活來說，複雜這個概念，對應的是使用負載過高。
而表型會是什麼呢？
有可能是CPU運算負載快速提升、記憶體使用量飆高或是系統結果不斷震盪不收斂。

這裡可以先不考慮Runtime時神經網路的大小(這個有可能會影像到效果)，而超參數就是在Runtime運算前所需耗費的資源利用。
超參數包含的東西不少，先從常見的說起吧！

Learning Rate
Batch Size
這兩個項目在某種程度上是互相拮抗的。

Learning Rate

太小則收斂時間太久
太大則可能不收斂

以梯度下降的觀點來看，學習率(Learning Rate)這個東西呢，就是斜率的變化。
斜率的絕對值越大，越容易觸底。
如果能夠快速碰到我們認知的底部(極值區的斜率為零)，不就正是我們的目標嗎？
對，但世界上沒有這麼剛好的事情。
極值的出現，通常是一個小範圍。
萬一過頭了，代表出現所謂的觸底反彈。
因此反而造成震盪的不穩定現象。