2023 iThome 鐵人賽

AI & Data

以 OpenAI 以及 LangChain 實做我的聊天機器人系列第 33 篇

[D30+3] GPT-4V 的視覺-語言能力

15th鐵人賽 chatgpt gpt-4v openai 聊天機器人

Ted Chen

2023-10-25 05:52:59

2080 瀏覽

分享至

此為《GPT-4V 微軟評測報告》第四章實測

前言

今天我將與大家分享《GPT-4V 微軟評測報告》的第四章實測。這一章的內容不僅豐富，更是相當精彩。若大家的時間允許，我強烈推薦你們至少快速瀏覽原始的報告。因為原報告中的實驗項目及細節非常完整，但由於篇幅的考量，我僅摘錄了部分項目。接下來，我會列舉一些讓我印象深刻的實驗，並在後續的段落中與大家分享實測的記錄。

另外，如果您喜歡我們這樣的內容，很歡迎到這裏訂閱我們的電子報，我們接下來的內容會在這裏優先發佈： ChatGPT 落地研究 | Ted (substack.com)

本篇實測項目

GPT-4V 在圖像辨識和語言詮釋方面展現出的能力，包括：

對名人的辨識和語言描述（此項目實測結果與報告不同，詳見後文「ChatGPT 的侷限」）
地標的辨識和語言描述
各國料理的辨識和語言描述
醫學影像的辨識和解說（此項目實測結果與報告不同，詳見後文「ChatGPT 的侷限」）

GPT-4V 在對照片內的空間解析上所呈現的能力，如：

描述照片中各物體的相對位置

GPT-4V 對於照片內情境和常識的理解，例如：

解釋照片中的幽默元素
解讀和詮釋照片中的常識
對照片中可能的情境進行推論

GPT-4V 對於照片中的圖表和設計的解讀，如：

流程圖的理解和說明
室內設計圖的理解和詮釋

最後，令人驚艷的是，GPT-4V 能根據提供的圖表直接生成繪製相似該圖表的程式碼。

現在，讓我們直接深入到上述功能的實測記錄。

驗證記錄

對地標的辯識以及語言描述能力

我們實際選取了台灣的幾個景點進行測試。結果顯示，GPT-4V 對於較為知名的景點有較豐富的訓練資料，因此其描述也相對準確。然而，對於非國際知名的地標，它有時可能無法正確辨識，或者給出不夠精確的描述。我們將在「ChatGPT 的侷限」段落中提供具體的範例。

對各國料理的辯識以及語言描述能力

從各國和各區域的料理描述中，我們發現如果某一菜餚的外觀有明確的特點，GPT-4V 的描述會較為精確和具體。

照片內空間相對位置的判斷以及描述能力

令人印象深刻的是，GPT-4V 不僅能進行物件的辨識，它還可以判斷和描述照片中的空間感，例如下列圖片中物件之間的相對位置。

照片內的笑點辨識

進一步地，除了客觀的空間描述，GPT-4V 也能理解照片內更深層的含義，例如梗圖的笑點，並進行相對應的描述。

照片內的常識理解及詮釋能力

當我閱讀報告並發現GPT-4V 能理解照片中的常識時，我感到十分驚訝。這使我思考，是否可以拿一些國高中課程內容，測試 GPT-4V 的說明能力和應用範疇。

照片內可能情境的推論

除了上述的常識理解，GPT-4V 也能如偵探般根據照片中的線索進行推論。對於下圖的推理結果，你覺得如何呢？

流程圖的理解以及說明

在測試 GPT-4V 對於流程圖的理解時，我們發現其在辨識中文流程圖時會有一些誤判。這可能源於其對中文的理解能力還不夠成熟。然而，對於英文流程圖的判斷，其表現相對理想。

室內設計圖的理解以及說明

與流程圖的情況相似，當面對中文室內設計圖時，GPT-4V 的理解能力也受到了一些挑戰。但在處理英文設計圖時，其表現確實令人驚訝，下方是詢問的設計圖原稿：

ChatGPT 的回覆：

中文造成的設計圖判斷的幻覺版本，請見後方【ChatGPT 的侷限】段落。

圖表的程式碼生成

最後，GPT-4V 能夠根據圖表生成相對應的程式碼。實際上，雖然生成的程式碼繪製出來的圖表與原始圖表不完全相同，但兩者非常接近，與 ChatGPT 的原始問答記錄如下：

下方則是將 ChatGPT 生成的程式碼實際執行後繪製的圖表，大家可以看到，雖然不是完全相同，但是它們之間已經十分相近了。

ChatGPT 的侷限

我們在上個段落已經和大家分享了一些令人印象深刻的驗證結果。在這裡，我們會提到一些和「微軟評測報告」結果有所出入，值得注意的侷限範例。

公眾人物的判讀

ChatGPT 的第一個明顯侷限，在人物辯識上，很可能是基於保護個人隱私的考量，因此即使涉及公眾人物，它似乎都選擇不進行深入處理。

地標的判讀

在地標的判讀方面，主要集中在知名和國際性的景點，因為這些地方有足夠的訓練資料。對於較不知名的景點，例如台灣當地的「高跟鞋教堂」，ChatGPT 很可能提供不準確的資訊。

醫療影像的判讀

對於醫療影像，考慮到醫療領域的特殊性和敏感性，ChatGPT 似乎選擇避免詳細描述。

中文流程圖的判讀

對於中文流程圖，ChatGPT 的反應不甚理想。這可能源於它在中文辯識上的不足，導致其給出的回答非但不精確，甚至接近胡說八道的程度。

中文室內設計圖的判讀

類似地，當涉及中文室內設計圖時，若圖像中包含大量的中文字，ChatGPT 的判斷明細那會出現偏差。

結論

透過本文的深入探討和驗證，我們可以清楚地看到 ChatGPT 的優點和局限性。其在一些領域，如知名景點、國際料理的描述，以及對照片內的空間、情境等的認識上都展現了驚人的能力。然而，當涉及中文的辯識，特別是中文流程圖和室內設計圖的判讀，其效果似乎並不如人意。此外，出於對隱私和敏感領域的考慮，ChatGPT 在公眾人物和醫療圖像的辯識上也展現出保守的態度。

這些發現提醒我們，雖然人工智慧在不斷進步，但仍存在其固有的侷限。在未來的應用中，使用者應該明白這些工具的能力與侷限，確保其在合適的場合下得到最佳的利用。最後，期待隨著技術的進步，這些局限性能逐步被克服，使得 AI 更為完善、強大和有用。

如果您喜歡我們這樣的內容，很歡迎到這裏訂閱我們的電子報，我們接下來的內容會在這裏優先發佈： ChatGPT 落地研究 | Ted (substack.com)