iT邦幫忙

2025 iThome 鐵人賽

DAY 3
0
生成式 AI

生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維系列 第 3

Day 3|資料與 Token:模型的世界觀從哪來?

  • 分享至 

  • xImage
  •  

為什麼需要在意?
餵什麼,長什麼。語料品質與切詞方式會直接影響輸出。

白話定義

語料:網頁、論壇、書籍、文件……品質參差,偏誤必然存在

Token:不是字,是「片段」。切得太碎→成本高、理解難;切得太粗→細節丟失

常見情境

通用模型懂皮毛;遇到專業長尾就容易亂講

中文語境差異大:口語、學術、法務是三個世界

常見誤解

「網路上很多=真實」→ 流量不等於正確

「丟越多上下文越好」→ 噪音會稀釋重點

如何判斷(觀念)

先問:任務需要「廣度」還是「深度」?

專業場景就補專業資料(哪怕只是概念上規畫來源、分級、稽核)

小結
資料是地基、Token 是積木,兩者的選擇決定了「房子」能蓋多穩。


上一篇
Day 2|模型到底在「生成」什麼?
系列文
生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維3
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言