作為一個面向非工程師的系列內容,在撰寫這種工具文章的時候,目標就是希望能把每一個或大或小的功能給講清楚,讓大家能知道「有什麼功能」、「這功能有什麼用」、「什麼時候用&如何用這功能」
今天一樣來講一個看起來很小,但實際上也有很多眉眉角角的一個功能——網路資訊檢索
不知道大家是否有用過 2022 年的 ChatGPT ?那個時候的 AI 都還沒有包含網路搜尋相關的功能,因此只要去問一些超過模型訓練資料時間點的資訊的時候,都只能得到 AI 在亂掰的回答。
語言模型的訓練資料具有時間截止點,沒辦法得知訓練完成後發生的事件或資訊。
因此,當使用者詢問任何最新消息、即時數據或需要驗證當前事實時,AI 必須透過外部網路工具來擷取最新資訊,才能確保回應的時效性和準確性,不然就會變成沒有依據的亂掰。
如下面的示意圖所示,基本上就是一個這樣的流程
上面看到的是一般的 AI 是如何透過外部的網路能力,來回答使用者提出的問題的。那 Claude 除了做到這個流程以外,還有哪些值得我們來講一講的地方呢?
Claude 不會每個問題都去搜尋網路,而是會先評估問題的性質,根據不同的問題類型有不同的策略
Claude 有兩種主要的網路資訊擷取工具,會根據任務需求選擇使用:
web_search
(網路搜尋):像使用 Google 搜尋一樣,輸入關鍵字後獲得多個網頁的摘要。適合探索性查詢、需要比較多個資訊來源,或是不確定哪個網站有答案的情況。web_fetch
(網頁擷取):直接讀取特定網址的完整內容,類似開啟網頁詳細閱讀。當你提供具體網址,或 Claude 在搜尋結果中發現重要文章需要深入了解時,就會使用這個工具。這兩個工具經常協同運作:先用 web_search 找到相關資源,再用 web_fetch 深入閱讀最重要的幾篇。
畢竟網路上其實並不是所有的內容都可信,很多時候需要去旁判斷它的來源
而 Claude 在使用網路資源時有這樣一套處理原則:
寫在最後值得注意的是,並不是所有的網路內容都能讓 Claude 取得的。以下這些內容都是 Claude 無法存取的: