我是就讀資訊相關科系的大四學生,主要學習數據處理分析和人工智慧模型的應用。
在這次暑假期間因緣際會下加入GAI人工智慧組實習,從中開啟了我對於聊天機器人資料檢索技術的研究。這次暑期實習是我大學階段的第二個實習,我覺得在這次實習當中充分的學習到RAG技術和向量資料庫等技術。再加上這次實習也是非常充實的一次經驗,學習該如何有條理且在小規模的團隊中有效率合作的機會,因此想藉由這次鐵人賽來進行紀錄我們共同的成果。在未來的三十篇當中內容會圍繞在RAG 使用到的相關技術介紹,包含向量資料庫介紹、資料庫的CRUD、chunks切割、檢索及生成架構( Naive RAG & Advanced RAG)、評估指標(RAGAs)以及最終小規模測試的結果。
雖然我還只是大學生,但是我會盡量以專業角度去進行分享。我也特別規劃一個脈絡順序去與大家分享我在這次暑假的學習過程,如果在技術方面有寫得不夠詳細或需要修改的地方都歡迎指教! 這次主要使用的環境是用python,其中也會使用到一些AOAI資源。因為當時測試的一些程式碼等都留存在實習的電腦中,而且我現在也已經沒有AOAI資源可用,所以之後文章中的程式碼大多都是依靠我的筆記進行回憶撰寫。若有版本引用錯誤請見諒,然後需要先告知大家: LLM資源真的很貴,在自己嘗試之前請確認token的使用量。
明天我將先從RAG的大腦向量資料庫開始,RAG的源頭就是知識庫的資料好好保存!