為什麼需要談?
切太細會斷掉脈絡,切太粗會把噪音整坨塞進去。
白話定義
Chunk=最小可引用單位。用來檢索、排名、在回答中標註來源。
常見情境
產品手冊、規範/條款、技術白皮書、長報告與 FAQ。
常見誤解
「固定 500 字就好」→ 語義邊界不等於字數邊界。
「一段就是一塊」→ 表格/定義/例外條款要獨立處理。
實用心法
語義邊界 5 訊號:遇到 (1) 標題層級切換 (2) 主題轉折 (3) 表格起訖 (4) 定義/警語 (5) 列表結尾 → 就切。
重疊滑窗 10–20%:避免把關鍵定義切斷。
中繼資料:每塊記「文件名/章節路徑/版本/日期/語言」,之後引用才可溯源與去重。
檢核清單
任一塊是否「單獨可讀懂」?若否,需重疊或補標題。
表格是否「整張為一塊+文字解說為另一塊」?
每塊是否都含版本與日期,避免混入舊資訊?
小結
以語義而非字數切塊;「可被引用、可被讀懂」就是好 chunk。