iT邦幫忙

0

DAY17:認識Chunking並實作

2025-10-21 16:10:42151 瀏覽
  • 分享至 

  • xImage
  •  

Chunking(文字切片)指的是把一大段文字依照一定規則切成小段。


在RAG系統中,我們常會放入很長的文件,例如一整本手冊、醫療報告、課程講義……
但是LLM模型一次只能處理有限長度的文字(token),如果不切開,模型根本讀不完,也沒辦法搜尋正確內容。
所以我們要先把長文件分割成多個小段(chunks),每段都單獨轉成embedding向量,檢索時就能根據語意快速找到最相關的那一段。


Chunking的常見切法:

  1. 固定字數切割:例如每300個字切一段。簡單但可能打斷語意。
  2. 句號分段:根據標點符號分割,更自然但控制長度較難。
  3. 標題切割(Markdown/文件結構):依據文件層級(#、##)分割,是最常用的語意切法。

  1. 安裝需要的套件
    https://ithelp.ithome.com.tw/upload/images/20251021/20169372kJDAkTNh15.png
  2. 匯入模組
    https://ithelp.ithome.com.tw/upload/images/20251021/201693722DceK4i0Le.png
  3. 模擬一段Markdown文字
    https://ithelp.ithome.com.tw/upload/images/20251021/20169372Dr7dFk7enW.png
  4. 設定切割規則
    https://ithelp.ithome.com.tw/upload/images/20251021/20169372qjyhiMftXl.png
  5. 切割Markdown文件並輸出結果
    https://ithelp.ithome.com.tw/upload/images/20251021/201693723WX4n3YmtZ.png
    https://ithelp.ithome.com.tw/upload/images/20251021/20169372GjK0s6umR8.png

圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言