iT邦幫忙

embedding相關文章
共有 19 則文章
鐵人賽 AI & Data DAY 24

技術 Day 24 AMI Meeting Corpus 資料應用 - 語者標籤錯位問題的發現與原因分析

▋前言 在使用 AMI Meeting Corpus 進行語音分析實驗時,發現一個重要的問題:逐字稿 (ES2002a.Mix-Headset.txt) 裡的...

鐵人賽 AI & Data DAY 15

技術 【Day 15】從API Key 到本地向量庫:設定 OpenAI 與 Chroma DB

在 Day 14,我們學會了如何將 Notion 筆記切分 (Chunking),並且估算了 Embedding 成本。接下來,要讓我們的筆記進入「語意檢索」的...

鐵人賽 AI & Data DAY 14

技術 【Day 14】資料 Chunking 與 Embedding 成本評估

在 Day 13,我們討論了Chunking 策略,將 Notion 筆記切分成適合的文字片段,方便送進 Embedding 模型轉換成向量。今天,我們要實作兩...

鐵人賽 AI & Data DAY 13

技術 【Day 13】Chunking 策略:為 Embedding 做好準備

在 Day 12,我們理解了 Embedding 這個將「語意」轉化為「數學座標」的魔法。在我們迫不及待地想把所有筆記都向量化之前,還有一個極其重要、卻也最常被...

鐵人賽 AI & Data DAY 12

技術 【Day 12】向量化的準備:Embedding 與向量資料庫

在 Day 11,我們成功地讓 Notion 筆記存進了 SQLite 資料庫。這就像是為我們的「第二大腦」建立了記憶中樞,我們可以透過 SQL 精準地存取資料...

鐵人賽 Modern Web DAY 11

技術 喚醒長期記憶:用資料庫函式實現高效語意搜尋

前言 歡迎來到第十一天!昨天我們跨出了巨大的一步:成功將第一個知識點 (keyPoint) 轉化為向量,並存入了 Supabase 這個雲端知識庫,順便還嘴了一...

鐵人賽 Modern Web DAY 9

技術 解鎖語意搜尋:親手計算向量的餘弦相似度

前言 歡迎來到第九天!昨天我們透過了解了 RAG 的基本概念並透過 Gemini Embedding API 實際看到了文字是怎麼轉為向量陣列的,我自己相當喜歡...

鐵人賽 Modern Web DAY 8

技術 AI 的開卷考試:初探 RAG 與 Embedding

前言 歡迎來到第二週!真虧你看完昨天那篇落落長的鬼東西還沒棄坑,真有你的!我打完看了一下字數約四萬字,自己也傻了一下,但為了系列文的完整度我又不能直接跳過那些程...

鐵人賽 AI & Data DAY 9

技術 Day 9|從文字到數字:Vector 與 Embedding 的基本概念

引言 我們知道電腦無法像人一樣直接理解文字。要讓電腦「看懂」文字,我們必須先把文字轉換成數字的形式,才能進行後續的分析或建模。 在 主題三:特徵與表示 中,我會...

鐵人賽 DevOps DAY 5

技術 Day05 - 向量模型(Embedding)- 四種 Embedding 模型實測與選型

🔹 前言 昨天 (Day 4) 我們比較了 向量資料庫,解決了「知識要存在哪裡,怎麼檢索」的問題。 但在 RAG (Retrieval-Augmented Ge...

鐵人賽 AI & Data DAY 4

技術 Day 4|Embedding 是什麼?——如何把文字變成數字空間

昨天把 Indexing pipeline 跑過一遍:從資料載入、Chunking、Embeddings,到向量資料庫。要讓 RAG 找到「對的內容」,關鍵在第...

鐵人賽 DevOps DAY 4

技術 Day04 - 向量資料庫(Vector Database)- 常見選項與實務比較

🔹 前言 在 LLMOps 的世界裡,向量資料庫 (Vector Database) 幾乎是 RAG(Retrieval-Augmented Generatio...

鐵人賽 生成式 AI DAY 27

技術 Part2: 地端實作聊天機器人-在Dify設定模型

▋在Dify設定模型 昨天在Dify上已經初步認識了各個頁面的功能,但如果實際嘗試的話,會發現還是沒辦法建立一個RAG聊天機器人,關鍵在於,我們還沒給定Dif...

鐵人賽 AI/ ML & Data DAY 22

技術 Day22: JoJoGAN之你這沒用的老東西

DIO曾言:「老東西,你的替身是最沒用的!!」 今天,我們來講古,來介紹以前的AI是怎麼做濾鏡這種東西。 在影像生成上面,過去(大約2022之前)我們使用對抗生...

鐵人賽 生成式 AI DAY 24

技術 Day24 - vLLM實作篇PART3:FastAPI與vLLM docs尋寶之旅

前言 第24天了!最後就在官方文件裡面撈看看還有什麼可以玩的。 ✨ 首先是安裝方式,除了之前試過的linux GPU版本安裝之外,官方文件還提供了linux C...

鐵人賽 生成式 AI DAY 22

技術 day22 RAG加速資料檢索:雲端資料庫與雲端向量搜尋服務初探

前言 昨天我們進行LangChain結合Diagram as Code RAG生成雲端架構圖的初步展示,但對於文件管理來說,要在本地端管理越來越多的文件,實在難...

鐵人賽 生成式 AI DAY 6

技術 Part1: Azure聊天機器人原理-向量資料庫&Embedding

上一篇我們介紹了RAG和LLM,它們是讓聊天機器人活起來說人話的重要關鍵。但在背後,其實還有功不可沒的向量化技術作為支撐,今天就來跟大家解釋Embedding和...

鐵人賽 AI & Data DAY 11

技術 生成式A.I.(AIGC)從0開始 - Embedding 介紹

什麼是Embedding? Embedding是一種將物件(如單詞、句子或者其他資料)轉換成實數向量(一種數學表示)的技術。這個轉換過程使得計算機能夠更好地理解...

鐵人賽 AI & Data DAY 4
LLM 學習筆記 系列 第 4

技術 LLM Note Day 4 - OpenAI API

簡介 除了 ChatGPT 網頁介面以外,還能透過 OpenAI API 調用 ChatGPT 的功能,讓我們能夠在自己的開發應用裡面借助 ChatGPT 的力...