今天繼續完成昨天沒有完成的東西。
下載embedding model跟model weights
cd ${repo}
# download embedding model
git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese
# download weights
git clone https://huggingface.co/ziqingyang/chinese-alpaca-2-7b-16k
目前測試沒有加長的權重
https://huggingface.co/ziqingyang/chinese-alpaca-2-7b
沒有辦法用來做檢索式問答或是摘要生成,目前沒有細查原因,不確定是不是只因為長度問題,生成出來的文字都是空字串。
將紅樓夢的文章存到doc.txt
用於檢索
《紅樓夢》也稱《石頭記》,中國古典長篇章回小說,是中國大陸定義的四大小說名著之一。《紅樓夢》書內提及的別名,還有《情僧錄》、《風月寶鑑》[1]、《金陵十二釵》。故事是從女媧補天時所剩下的一塊石頭講起,因無才補天而隨神瑛侍者(即後來的賈寶玉)入世,幻化為賈寶玉降世時口銜的美玉以遊歷世間,因此又名《石頭記》。乾隆四十九年甲辰(1784年)夢覺主人序本題為《紅樓夢》(甲辰夢序抄本)。1791年在第一次活字印刷(程甲本)後,《紅樓夢》便取代《石頭記》成為通行的書名。
.......
doc.txt
),做檢索式問答:python langchain_qa.py --embedding_path ../../text2vec-large-chinese --model_path ../../chinese-alpaca-2-7b-16k --file_path ../../doc.txt --chain_type refine
doc.txt
)之後生成摘要:python langchain_sum.py --model_path ../../chinese-alpaca-2-7b-16k --file_path ../../doc.txt --chain_type refine