2024 iThome 鐵人賽

DAY 22

生成式 AI

智能雲端架構圖生成：結合LangChain&LangGrpah與Rag的創新應用系列第 22 篇

day22 RAG加速資料檢索：雲端資料庫與雲端向量搜尋服務初探

16th鐵人賽 rag langchain information retrieval embedding

jay0810

團隊不時以註解遮羞的實習同學

2024-09-21 02:25:43

961 瀏覽

分享至

前言

昨天我們進行LangChain結合Diagram as Code RAG生成雲端架構圖的初步展示，但對於文件管理來說，要在本地端管理越來越多的文件，實在難以執行，因此我們今天會介紹可以和LangChain整合的雲端資料庫和Retrievers

正文

Retrievers

我們可以先看LangChain支援的Retrievers有哪些
https://python.langchain.com/v0.2/docs/integrations/retrievers/

向量搜尋Retrievers

AWS Bedrock Knowledge Base

https://aws.amazon.com/bedrock/knowledge-bases/
AWS Bedrock最大的優勢在於整合多個模型提供商的模型可以進行使用

當然不是每個模型提供商都有embedding model，這裡展示幾個我發現有embedding model的模型

Titan
Cohere

串接上，只要選擇好資料來源和embedding model成功建立knowledge_base，使用id就能串接

from langchain_aws.retrievers import AmazonKnowledgeBasesRetriever

retriever = AmazonKnowledgeBasesRetriever(
    knowledge_base_id="",
    retrieval_config={"vectorSearchConfiguration": {"numberOfResults": 4}},
)

Azure AI Search

https://azure.microsoft.com/en-us/products/ai-services/ai-search/

Azure的AI Search也有將文件匯入並且向量化的功能，並提供搜尋，只不過embedding model的選擇就沒那麼多

有興趣可以參考這兩篇文章
https://learn.microsoft.com/zh-tw/azure/search/vector-search-overview
https://learn.microsoft.com/zh-tw/azure/search/search-get-started-portal-import-vectors?tabs=sample-data-storage%2Cmodel-aoai%2Cconnect-data-storage
串接上也稍微複雜，主要和AI_SEARCH_SERVICE_NAME以及AI_SEARCH_INDEX_NAME有關係

import os

from langchain_community.document_loaders import DirectoryLoader, TextLoader
from langchain_community.retrievers import AzureAISearchRetriever
from langchain_community.vectorstores import AzureSearch
from langchain_openai import AzureOpenAIEmbeddings, OpenAIEmbeddings
from langchain_text_splitters import TokenTextSplitter

os.environ["AZURE_AI_SEARCH_SERVICE_NAME"] = "<YOUR_SEARCH_SERVICE_NAME>"
os.environ["AZURE_AI_SEARCH_INDEX_NAME"] = "langchain-vector-demo"
os.environ["AZURE_AI_SEARCH_API_KEY"] = "<YOUR_SEARCH_SERVICE_ADMIN_API_KEY>"
azure_endpoint: str = "<YOUR_AZURE_OPENAI_ENDPOINT>"
azure_openai_api_key: str = "<YOUR_AZURE_OPENAI_API_KEY>"
azure_openai_api_version: str = "2023-05-15"
azure_deployment: str = "text-embedding-ada-002"

embeddings = AzureOpenAIEmbeddings(
    model=azure_deployment,
    azure_endpoint=azure_endpoint,
    openai_api_key=azure_openai_api_key,
)

vector_store: AzureSearch = AzureSearch(
    embedding_function=embeddings.embed_query,
    azure_search_endpoint=os.getenv("AZURE_AI_SEARCH_SERVICE_NAME"),
    azure_search_key=os.getenv("AZURE_AI_SEARCH_API_KEY"),
    index_name="langchain-vector-demo",
)

Azure AI search 也支援非向量的搜尋方式

部屬的參考資料：https://techcommunity.microsoft.com/t5/educator-developer-blog/teach-chatgpt-to-answer-questions-using-azure-ai-search-amp/ba-p/3985395

下一步

明天我們將會介紹AWS Kendra 、 GCP AgentBuilder 等 非向量搜尋的Retrievers，接著我們會實際操作AgentBuilder串接作為示範

day21 LangChain 驅動：引領GenAI雲端架構圖生成展示 Diagram as Code 與 RAG 技術融合

day23 RAG與雲端非向量搜尋服務：AWS Kendra與GCP AgentBuilder初探

系列文

智能雲端架構圖生成：結合LangChain&LangGrpah與Rag的創新應用共 30 篇

RSS系列文訂閱系列文

8 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

智能雲端架構圖生成：結合LangChain&LangGrpah與Rag的創新應用系列 第 22 篇