iT邦幫忙

2025 iThome 鐵人賽

DAY 16
0
生成式 AI

生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維系列 第 16

Day 16|Chunking 策略:切多細才剛好

  • 分享至 

  • xImage
  •  

為什麼需要談?
切太細會斷掉脈絡,切太粗會把噪音整坨塞進去。

白話定義
Chunk=最小可引用單位。用來檢索、排名、在回答中標註來源。

常見情境
產品手冊、規範/條款、技術白皮書、長報告與 FAQ。

常見誤解

「固定 500 字就好」→ 語義邊界不等於字數邊界。

「一段就是一塊」→ 表格/定義/例外條款要獨立處理。

實用心法

語義邊界 5 訊號:遇到 (1) 標題層級切換 (2) 主題轉折 (3) 表格起訖 (4) 定義/警語 (5) 列表結尾 → 就切。

重疊滑窗 10–20%:避免把關鍵定義切斷。

中繼資料:每塊記「文件名/章節路徑/版本/日期/語言」,之後引用才可溯源與去重。

檢核清單

任一塊是否「單獨可讀懂」?若否,需重疊或補標題。

表格是否「整張為一塊+文字解說為另一塊」?

每塊是否都含版本與日期,避免混入舊資訊?

小結
以語義而非字數切塊;「可被引用、可被讀懂」就是好 chunk。


上一篇
Day 15|Embedding 與索引:找得到,才答得好
下一篇
Day 17|Re-ranking 與組合檢索:先找得到,再找得準
系列文
生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維19
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言