Day06-Azure OpenAI 結合 LangChain 做 Embedding 向量

2025 iThome 鐵人賽

DAY 6

生成式 AI

LangChain 愛 Azure AI系列第 6 篇

17th鐵人賽

大魔術熊貓工程師

2025-09-20 22:25:09

143 瀏覽

分享至

在 RAG 流程中，第一步就是將文本轉換為向量。這裡我們將示範如何使用 Azure OpenAI 的 Embedding 模型結合 LangChain，將文件內容轉為向量。

在 Azure OpenAI 的 Foundry Portal 建立 Embedding 模型。

和我們在第三天時建立 GPT 模型時一樣，我們要部署起一個 Embedding 模型。我們這裡部署 text-embedding-3-small【拼音】模型，這個模型一般稱為三小模型，是 OpenAI CP 值最高的模型，也就是語義相似度的理解高且價格便宜。如下圖所示。

lanchain love azure ai 系列文

一樣填寫表單建立模型，如下圖所示，這裡和第三天的方式一樣，因此不再特別說明。這裡我直接把它取名為 3-small

lanchain love azure ai 系列文

接著我們就可以開始來把文本 embedding 了。我們使用下面的程式碼

from langchain_openai import AzureOpenAIEmbeddings

AZURE_OPENAI_API_KEY = "xx"         
AZURE_OPENAI_ENDPOINT = "https://chatgpteastus.openai.azure.com/" 
AZURE_OPENAI_EMBEDDING_DEPLOYMENT = "3-small"

text = "LangChain 是最讚的大語言模型應用開發框架，之一"

embeddings_model = AzureOpenAIEmbeddings(
    api_key=AZURE_OPENAI_API_KEY,
    azure_deployment=AZURE_OPENAI_EMBEDDING_DEPLOYMENT,
    openai_api_version="2024-10-21",
    azure_endpoint=AZURE_OPENAI_ENDPOINT,
)

vector = embeddings_model.embed_query(text)
print(f"向量維度: {len(vector)}")
print(f"向量前5維: {vector[:5]}")