iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

用單張顯卡探索大型語言模型的奧秘 系列

今天是特殊的一年,大型語言模型如雨後春筍般冒出,其回答問題、邏輯推理、舉一反三的能力也令人嘆為觀止,曾經被人工智能視為障礙的圖靈測試對如今的語言模型來說就像一塊小蛋糕;原本因為進入門檻極高,該技術始終掌握在少數人的手中,然而現在,在LLama系列的大型語言模型開源後,先前許多專門被用來finetune大模型的技術,也開始被使用在了LLama系列的語言模型上,本系列文章將使用單張顯卡,藉由研究baby llama2專案來嘗試從頭訓練自己的語言模型並一步一步把模型參數量加大;並且使用QLORA等等的技術來對現有的大型語言模型做針對性的微調,探索大語言模型的奧秘。

DAY 21

Day 21 - ChatGPT API

今天仍然在等待Training的結果,開始嘗試摸索chatGPT的API,想要讓ChatGPT依據我給的情境幫我做分類任務。 import openai imp...

2023-09-22 ‧ 由 jjchen1 分享
DAY 22

Day 22 - ChatGPT API

為了讓ChatGPT做到角色扮演,需要依據自己的簡單應用想個讓她角色扮演的prompt,這樣的設定方式可以在需要做一些功能控制時,讓ChatGPT自己依據用戶的...

2023-09-23 ‧ 由 jjchen1 分享
DAY 23

Day 23 - ChatGPT API 小應用:透過聊天室網站用文字控制相機拍照

本文中的聊天室網頁使用 WebChatApp 專案並自行做一些修改 搭配github上的聊天室WebChatApp,將該聊天室網頁接上了這兩天寫的ChatG...

2023-09-24 ‧ 由 jjchen1 分享
DAY 24

Day24 - Chinese Llama2

依據我的理解LLama是Meta較早期釋出的基礎語言模型,而Alpaca則是基於LLama針對聊天指令微調後的模型,微調資料格式與先前讀到的Supervised...

2023-09-25 ‧ 由 jjchen1 分享
DAY 25

Day 25 - Chinese LLama2

我看了一陣子以後,發現LLama與LLama2有太多不一樣的細節,對我這樣剛切入了人來說,條列區別意義不大,因此決定先跑起來再說。 目前目標放在部屬Chines...

2023-09-26 ‧ 由 jjchen1 分享
DAY 26

Day 26 - Chinese LLama2 (3) 24G單顯卡指令精調(Instruction FineTuning)

使用Chinese LLama2專案的很多方法可以參考${Root}/scripts/README.md,training/finetune/inferenc...

2023-09-27 ‧ 由 jjchen1 分享
DAY 27

Day 27 - Chinese LLama2 (4) llama.cpp

嘗試使用llama.cpp來跑Alpaca2,目前還沒跑起來 git clone https://github.com/ggerganov/llama.cpp...

2023-09-28 ‧ 由 jjchen1 分享
DAY 28

Day 28 - Chinese LLama2 (5) with LangChain

我對LangChain的認知是,這是一個方便用來開發LLM相關應用程式的框架,裡面包裝了很多LLM在應用上經常會使用到的一些function或工具。 所以今天來...

2023-09-29 ‧ 由 jjchen1 分享
DAY 29

Day 29 - Chinese LLama2 (6) with LangChain

今天繼續完成昨天沒有完成的東西。 使用LangChainy做检索式问答 下載embedding model跟model weights cd ${repo}...

2023-09-30 ‧ 由 jjchen1 分享
DAY 30

Day 30

今天是鐵人賽的最後一天,這項比賽對我來說不僅是一場挑戰,更是一次自我突破的機會。這是我首次參與鐵人賽,整體的體驗相當有趣,每一天都充滿了新的啟發和學習。然而,由...

2023-10-01 ‧ 由 jjchen1 分享