在前兩天的教學中,我們大概了解 RAG 的整個流程,看起來似乎是很簡單的概念,但我們在建一個 RAG 問答系統時,絕對沒有我們想像的那麼輕鬆!因為在這建立的過程中,每一個細節、每一個步驟都影響著我們最後的結果,非常地有趣~
那麼現在,我們就要開始實際做一個 RAG 問答系統囉~
由於 RAG 問答系統中,LLM 針對問題的回覆是基於我們提供的答案,所以資料的準備會直接地影響 LLM 的答案,就算是在強大的模型,如果我們在最一開始的時候就給了錯誤的資料,那麼 LLM 回答的內容絕對不會是我們所想要的!
因此,我建議我們在最一開始的練習中,先準備簡單清楚又適量的文字段落進行練習,如此一來,我們既可以避免資料內容的錯誤,而在最後的結果中我們也比較好去辨識回答的好壞~
在我們這次的練習中,我們針對科學技術領域,選擇了 10 段該領域的內容作為我們的原始資料,內容如下:
1. 量子計算:量子計算是一種利用量子力學原理進行計算的新型計算技術。與傳統計算機使用二進制比特不同,量子計算機使用量子比特(qubits),能夠在同時處於 0 和 1 的疊加狀態。
2. 人工智慧與深度學習:深度學習是一種模仿人腦神經網絡結構的人工智慧技術,已經在圖像識別、語音識別和自然語言處理等領域取得了顯著進展。通過訓練大規模數據集,深度學習算法可以自動學習特徵,並在不需要人工干預的情況下進行準確的預測或分類。
3. 基因編輯技術:CRISPR-Cas9 是目前最先進的基因編輯技術,允許科學家在 DNA 序列中精確地添加、刪除或替換基因片段。這項技術為治療遺傳病、提高農作物產量和抵抗疾病的研究開辟了新途徑。然而,基因編輯也引發了倫理爭議,特別是涉及人類胚胎基因編輯的應用。
4. 物聯網(IoT):物聯網指的是將日常物品連接到互聯網上,讓它們能夠互相通信並執行自動化操作的技術。智能家居設備如智能恒溫器、智能燈泡和智能鎖都是物聯網技術的例子。隨著 5G 網絡的普及,物聯網將在未來的智慧城市和自動駕駛汽車中扮演關鍵角色。
...
在我們準備好原始資料後,我們就要繼續進行 RAG 問答系統的創建囉~