在第一天,我想先從基礎先談起。
大家可能都聽過生成式 AI 像是 (ChatGPT),有時候使用完他可能也是在「亂編答案」,不見得能夠一步到位就生成你想要的問題,這種情況其實就稱作是 Hallucination(幻覺)。
他會產生幻覺的原因是因為 LLM 會使用機率預測的方式來選擇文字,在回答未知的
事件時他不會選擇說自己不知道,而是自信地生成一個看似合理的答案。
這跟它的訓練方式有關:模型在訓練時會吸收大量公開資料,透過不斷計算下一個 token 出現的機率,來學習怎麼「接話」。
不過,這樣的訓練方法有三個限制:
1. 資料過時
資料不會是即時的新資料作為訓練,在訓練過後更新的新資訊都不會納入訓練集中。
2. 資料來源的限制
有些企業內部的非公開資料,這些是模型不會訓練的部分。
3. 幻覺
也就是先前說的,面對他自己也不清楚的問題,他會自信的回答錯誤的訊息。
正因為這樣,如果僅僅是學習 LLM 可能還不夠可靠,所以接下來讓我們們一起學習 RAG(檢索式生成),一步步去學習如何改善這些問題,甚至進階到實體應用吧!