2023 iThome 鐵人賽

AI & Data

以 OpenAI 以及 LangChain 實做我的聊天機器人系列第 34 篇

[30+4] GPT-4V 的視覺標記及連續圖像理解能力

15th鐵人賽 openai chatgpt gpt-4v 聊天機器人

Ted Chen

2023-11-01 05:47:34

2727 瀏覽

分享至

此為《GPT-4V 微軟評測報告》第五、第六章實測

前言

隨著 GPT-4V 模型成功地將圖像理解與文字能力緊密結合，我們如何與它進行更有效的互動成為了一個待解的問題。GPT-4V 提供了一系列讓使用者能直接在圖片上進行標示的工具，包括框選、指標、尺標等。稍後，我們將以一些範例進行示範。此外，除了對靜態圖像的理解，GPT-4V 也具備動態連續圖像的解析能力。我們接下來將透過實驗範例來簡單展示其理解的程度。

另外，如果您喜歡我們這樣的內容，很歡迎到這裏訂閱我們的電子報，我們接下來的內容會在這裏優先發佈： ChatGPT 落地研究 | Ted (substack.com)

本篇實測項目

GPT-4V 的標示技巧

框選：捕捉圖像的重點區域捉
指標：精準指向特定元素
尺標：明確點出物件位置
多重框選：同時突顯多個項目
框選加標號：組織與排序視覺元素

動態連續圖像的理解

料理步驟的分析及推論
泳姿的分析及推論
運動姿勢的分析及推論

最後，與前幾個章節的實測結果一致，我們在使用 ChatGPT 進行實驗後也發現了與原始報告有所出入的地方，我們會在文末詳述這些差異。

驗證記錄

框選：捕捉圖像的重點區域捉

對我來說，這種方法既直觀又有效。我發現在使用這種標示方式時，GPT-4V 似乎更能夠精準地捕捉我們的問題重點，因此它的回答準確度相對較高。例如，我們以下針對公園牆壁的圖像進行框選互動：

指標：精準指向特定元素

除了框選，你還可以使用指示箭頭和標線進行指向，如下所示：

尺標：明確點出物件位置

令人驚訝的是，我們甚至可以直接在圖像上使用尺標進行交流。不過，儘管我嘗試了不同的描述和尺標調整，ChatGPT 似乎經常回答不正確。目前，我還未確定在哪種情境下這種方法最為適用。也許在工廠製程或更精密的場景中會更有用？如果你有任何如何更正確使用尺表的方式以及建議，很歡迎在留言區與我們分享。

多重框選：同時突顯多個項目

在之前的測試中，我們已經介紹了幾種與 GPT-4V 交流的方法。但如果圖像中有多個目標該怎麼辦呢？接下來我們進行了多重框選的測試，還請求 ChatGPT 根據我們框選的動物編寫一個故事。以下是我們的框選示例和提示內容。

ChatGPT 的回覆：

框選加標號：組織與排序視覺元素

如果我們希望框選的目標有一定的順序，加上標號，GPT-4V 也能夠順利理解並給予適當的回應。實測範例如下：

料理步驟的分析及推論

雖然前面的範例主要針對單張圖片的理解，但GPT-4V同樣具備針對動態和連續性的照片進行整體事件的分析和推論的能力。例如，以下是展示一道中式料理的製作過程：

GPT-4V 可以對每一張圖片進行細緻的程序分析和推論。然而，在處理多張圖片的時候，筆者發現有些操作上的不確定性。具體來說，與ChatGPT溝通多張圖片的順序時，有時其回應的圖片順序與我們的期望不符。例如，ChatGPT回覆中的第四張照片，在我們看來實際上應該是第二張。為避免混淆，我在此特別提及並澄清這一點。如果各位讀者有確切的方法可以讓ChatGPT正確識別每張圖片的順序，很期待您可以跟大家分享並指點。

泳姿的分析及推論

接下來，我們將實驗另一個連續照片的分析，針對泳姿的評估和解釋。我們給予的提示訊息如下所示：

ChatGPT 的回覆如下：

運動姿勢的分析及推論

在最後的連續圖片測試中，我們選擇了瑜伽運動進行推測。在這個瑜伽動作的提示互動過程中，我們遇到了一些意想不到的情況。初始時，提供的圖片屢次未能引起ChatGPT的適切反應，它只是回覆說「Sorry, I cannot help with that.」。不過，在我們移除了第一張照片後，ChatGPT終於給與了我們正式的回覆。我們推測，它可能將第一張照片誤判為某種不適當的動作。關於這次實驗中的這個小插曲，我們會在接下來的段落，分享更多細節和原始的提示內容。

以下是 ChatGPT 的詳細回覆：

實驗中的意外觀察

莫名其妙的拒絕回應

當我們在進行連續瑜伽動作的實驗時，原初懷疑是不是連續的動作讓ChatGPT難以分析。因為在起初我們提供如下方圖示的連續動作詢問時，ChatGPT出乎我們的預料，一再回覆：“Sorry, I cannot help with that.”

接下來為 ChatGPT 的回應：

事實上，直到我們移除第一張照片，ChatGPT才開始正常運作。我們推測，也許ChatGPT誤解了第一張照片，認為它可能是某種不適宜的內容？

不明原因持續以英文回覆

在我們之前的實驗章節中，已經發現一個有趣的現象：當我們提供圖片並附加文字詢問時，ChatGPT偶爾會自動以英文回應。尤其是我們在貓咪遭蛇攻擊的連續動作分析中更是明顯。我們已嘗試各種方式提問，甚至明確指定希望得到中文回答，但ChatGPT似乎堅持使用英文。這讓我們猜想，GPT-4V的推出或許稍嫌倉促。不過，這也反映了現代軟體開發的趨勢：早早釋出，快速收取使用者的反饋。

結論

經過一系列的測試與實驗，我們可以看出GPT-4V在圖像與文字結合的問答能力上確實展現了相當的實力。從基本的圖像標示技巧，到連續照片的分析推論，GPT-4V 都展現了其對於視覺資料的理解能力。不過，這也不乏其小插曲，例如未能正確識別圖片的順序，或偶然的以英文回應等問題。這些情況讓我們感受到技術雖然進步，但仍有改進空間。儘管GPT-4V的某些反應令人意外，但整體來說，其在圖文互動的領域中已達到了一定的成熟度。期待未來，隨著技術進一步磨練，我們能夠看到更完善的AI圖文互動體驗。

如果您喜歡我們這樣的內容，很歡迎到這裏訂閱我們的電子報，我們接下來的內容會在這裏優先發佈： ChatGPT 落地研究 | Ted (substack.com)