2023 iThome 鐵人賽
分享至
大型語言模型(LLM)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文本數據上訓練的,LLM 建立在 Transformer 架構之上,其中多頭註意力層堆疊在一個非常深的神經網路中。
以無監督的方式處理大量無標註文本,其理解上下文的自注意力機制(Self Attention)以及兩階段遷移學習(Transfer Learning)的應用,成為諸多大型語言模型開發研究與改進的基礎,推動大型語言模型技術發展不斷進步。
IT邦幫忙