優化器是負責調整神經網路中的weight和bias等參數,以最小化損失函數的方法。上一篇文章有提到:損失函數的目的就是希望我們預測的結果跟實際結果誤差最小。而優化器的目標就是找到使誤差最小的參數組合。
學習率是深度學習中的超參數(Hyperparameter),它決定了模型在每次迭代時,參數更新的步伐大小。在每次參數更新時,優化器根據損失函數的梯度方向來調整參數。學習率就是用來縮放梯度的比例,從而決定參數更新的幅度。
學習率過大時,模型可能會震盪且難以收斂到最優解;學習率過小時,模型的收斂速度會變得非常慢,可能會停滯在局部最小值,無法充分學習數據的特徵。
學習率的選擇對於模型的訓練過程至關重要,因為它不僅影響模型的收斂速度,還會影響模型是否能夠找到全局最小值。
在上一篇有提到:梯度表示模型參數發生變化時,損失函數的變化率。梯度的大小和方向告訴我們,如果我們向這個方向移動,損失函數會增加多少。因此我們要最小化損失函數,參數的調整勢必要跟梯度反向更新參數。
常見的梯度下降法有:
批次梯度下降(Batch Gradient Descent)
隨機梯度下降(Stochastic Gradient Descent, SGD)
小批次梯度下降(Mini-batch Gradient Descent)
我覺得自己很幸運,能夠身處在資訊很發達的時代,今天參加一個社群小聚,主題是關於
「GenAI」,聽到大神分享關於不同「電商」公司在GenAI的應用,還有對於AI Engineer的看法。真的收穫滿滿、獲益良多。