[D30+2] GPT-4V 工作模式與提示技巧

15th鐵人賽 chatgpt gpt-4v 微軟驗證實驗

Ted Chen

2023-10-20 06:22:18

2126 瀏覽

分享至

此為《GPT-4V 微軟評測報告》第三章實測

前言

這是我們【GPT-4V 研究報告的研讀及實驗心得分享】的第一篇驗證心得分享，也算是我們第一則正式的電子報，所以在正式撰寫心得前，著實讓人思考了許久，該如何編排、表達，才能夠讓讀者感覺有所收穫，同時理解我們實驗時的感受，而這一篇的結構，也就是我們後來感覺比較適合的編排及表達方式，如果你個人有任何的想法，很歡迎給予我們意見。

另外，如果您喜歡我們這樣的內容，很歡迎到這裏訂閱我們的電子報，我們接下來的內容會在這裏優先發佈： ChatGPT 落地研究 | Ted (substack.com)

提示技巧

在正式分享我們的驗證記錄與心得前，先跟大家介紹幾個 GPT-4V 的圖像提示技巧。

結構化結果的輸出

當我們需要 GPT-4V 解析圖片內容後，將圖片內資料做結構化輸出，就可以使用這個技巧，例如以下的提示詞：

請閱讀此圖像中的文字，並將訊息以下方的JSON格式返回（注意xxx是佔位符號，如果圖像中沒有相關訊息，請填入"N/A"）。
{"class": xxx, "DLN": xxx, "DOB": xxx, "Name": xxx, "Address": xxx, "EXP": xxx, "ISS": xxx, "SEX": xxx, "HGT": xxx,
"WGT": xxx, "EYES": xxx, "HAIR": xxx, "DONOR": xxx}

--- GPV-4V 的回覆 ---

{"class": "D", "DLN": "D08954796", "DOB": "01/01/1974", "Name": "Jelani Sample", "Address": "123 Main St, 
Phoenix, AZ 85007", "EXP": "03/01/2024", "ISS": "03/01/2016", "SEX": "M", "HGT": "5-09", "WGT": "185 lbs", 
"EYES": "BRO", "HAIR": "N/A", "DONOR": "Y"}

少樣本學習

在 GPT-4V 處理圖片能力遇到不足的情況下，我們可以透過上下文提供一些思考方式以及回覆範例，協助 GPT-4V 更精準地進行分析和回應。舉例來說，於下方的圖片中，我們在提示部分增添了兩個範本，旨在指導 GPT-4V 如何逐步解析。其中一個用於引導的提示詞如下：

黃色指針大約在80和100 mph之間的中間位置。80和100的中間是90。而且因為指針剛剛超過了90 mph，所以速度大約為91 mph。

驗證記錄

圖片的描述、理解能力測驗

ChatGPT 本身已擁有出色的語言能力，而其對於圖片的描述能力亦展現出相同的水準。當涉及照片的開放性描述時，其結果同樣令人驚訝。

提示實驗記錄：

此外，圖片上的邏輯推論能力更是令我們的驚訝。

提示實驗記錄：

圖片的指示能力

GPT-4V 不僅能夠理解圖片，其對圖片內指示符號的解讀也同樣令人印象深刻。例如，以下圖中框選烏龜後所進行的詢問。

圖片指示詢問的實驗：

GPT-4V 的局限性

GPT-4V 的能力不止於理解圖像中的意象。它能夠綜合圖片中的文字與我們的文字溝通，進行指定的任務。但在我們的實驗中，發現 GPT-4V 在中文支援上存在明顯的不足，如下述幾個實驗所示。

在發票資訊辨認的實驗中，GPT-4V 無法正確識別我們的購買品項。這可能是因為 GPT-4V 不能確定哪些資料是購買品項。但後續的實驗更加確認了它在中文支援上的局限性。

發票資訊實驗：

接著，我們提供了價目表和購買品項照片的實驗。以下是價目表：

購買品項詢問的實驗：

最後一點，可能與 ChatGPT 的設計有關。在微軟的 GPT-4V 報告中，詳細介紹了當圖片理解或回覆能力不足時，可以透過上下文少樣本學習（in-context few shots learning）來優化回覆。但當我們針對時速表讀取進行實際測試，ChatGPT 有時正確，有時則錯誤，這不穩定的表現使我們質疑：它是否真的通過少樣本學習來真正理解我們的問題並作出正確回覆？還是只是隨機猜測？