簡介
當訓練資料的長度越長,需要的 GPU 記憶體就會越高,因為算出來的梯度會跟著變大。透過 Gradient Checkpointing 可以幫助我們減少梯度...
批量學習(Batch Learning)
批量學習在運作時會一次使用整個數據集進行訓練,模型的各種數值參數都會在一次訓練中更新,而不是逐個樣本進行訓練。批量學習...
前言這篇文章會介紹如何安裝 Spark 並進行適當的配置,還不清楚 Spark 是什麼的人可以先看看 Spark 的介紹系列:Day13 - Spark 介紹...
Airflow 時間變數的地雷區
Before 地雷
start_date ⮕ DAG 開始的日期,必要參數
end_date ⮕ DAG 停止的日期,不必要...
本篇介紹使用SeamlessM4T前的環境建置,分為Colab及本機端兩種方式,其中Colab環境建置已經很完善,所以不需要太多的步驟。而本機端則需要比較繁瑣的...
在先前的論述中,我們已經對回應訊息評估的基礎概念進行了詳細的探討。今日,我們將進一步深入這一主題,專注於兩種進階的評估策略:首先是運用「Rubric 評量表」,...