iT邦幫忙

2023 iThome 鐵人賽

1
AI & Data

以 OpenAI 以及 LangChain 實做我的聊天機器人系列 第 35

[D30+5] GPT-4V 的抽象視覺理解、智力測驗及情商能力

  • 分享至 

  • xImage
  •  

此為《GPT-4V 微軟評測報告 》第七、第八章實測

前言

GPT-4V 的微軟評測報告中,第七和第八章的評測內容是關鍵。它涵蓋了GPT-4V作為“機器中的人”時的基本且重要部分:抽象視覺的理解、智力測驗以及情緒上的理解,這三方面的表現。這些表現使得GPT-4V彷彿具有人類的思考能力,特別是在情緒觀察能力和表達上的完美整合,好像它真的能理解我們的心情。而GPT-4V在藝術作品分析和同一張照片中根據不同的目的去捕捉細節的能力,更彰顯了它不只能理解整體的感受,還能從同一畫面中分辨出不同的細節所帶來的感受。我們將透過實際案例深入探討GPT-4V的這些能力。

另外,如果您喜歡我們這樣的內容,很歡迎到這裏訂閱我們的電子報,我們接下來的內容會在這裏優先發佈: ChatGPT 落地研究 | Ted (substack.com)

本篇實測項目

  • 抽象視覺的理解
  • 局部物件間的關係理解
  • 智力測驗的表現
  • 對情緒和氣氛的理解
  • 藝術作品的分析與比較
  • 同一畫面中不同情緒的詮釋

最後,我們將分享一個,我們在實驗過程中,臨時聯想道德關於GPT-4V在美術教學上的應用範例。對於有興趣了解GPT-4V應用的朋友,請務必關注這篇文章的內容。

驗證記錄

  • 抽象視覺的理解

在抽象視覺的實驗中,我們首先嘗試了一個相對具象的圖像。結果令人滿意,GPT-4V的解讀能力出奇地好,即使是使用ASCII作圖,它也能夠明確辨識。
https://ithelp.ithome.com.tw/upload/images/20231108/20154415njsJmjmVUT.png
但到了七巧板的部分,其解讀結果與我個人的觀察存在一定的差距。然而,這樣的結果其實也不能說是完全出乎預料。畢竟,當涉及高度抽象的概念時,不同的人不是也有不同的解讀嗎?
https://ithelp.ithome.com.tw/upload/images/20231108/20154415TmOMXiVehP.png

  • 局部物件間的關係理解

與先前對抽象圖像的理解相比,GPT-4V 在局部物件間的關係理解上展現出的能力更為出色。這類圖像不僅要求辨識每一物件,還需要進行適當的聯想和最終的組合拼湊。令人欣賞的是,GPT-4V 在此方面的表現真的做的不錯。
https://ithelp.ithome.com.tw/upload/images/20231108/20154415OvuDIdlREO.png

  • 智力測驗的表現

在智力測驗部分,我們從網路上隨選了幾個小測驗來試驗GPT-4V的能力。結果雖然不盡如人意,但還是有所體現。為了讓大家更直觀地理解我們的觀察,我們選擇分享其中一個正確和一個錯誤的回答。

首先是正確回答的部分:
https://ithelp.ithome.com.tw/upload/images/20231108/20154415z3ySL4ph8Z.png
而對於第二個錯誤答案,令人驚訝的是,GPT-4V在推論時的邏輯似乎很有道理,彷彿已經掌握了題目的規律。但最終提供的答案卻是錯的。
https://ithelp.ithome.com.tw/upload/images/20231108/20154415Jr0AZuUDEu.png

  • 對情緒和氣氛的理解

與先前的智力測驗相比,GPT-4V 在畫面情緒的解讀上更讓人感覺到驚艷,這或許得益於OpenAI在此方面的深入訓練。為了更清楚地展示,我們選擇了兩個畫面情緒的解讀案例。首先,我們看到一個較為簡單的案例,主要集中在臉部表情和色調的分析:
https://ithelp.ithome.com.tw/upload/images/20231108/20154415YHWeGrK5ZI.png
而第二個案例涵蓋了更廣泛的範疇,不僅包括了場景,甚至連牆面的紋路都納入了分析,其描述可以說是非常精確。
https://ithelp.ithome.com.tw/upload/images/20231108/20154415k3OZ9EIQeV.png

  • 藝術作品的分析與比較

值得注意的是,GPT-4V 不僅能夠解讀人物表情上的情緒,它還能在藝術畫作中捕捉到可能引起觀眾情感的細節。以下是兩個範例,讓我們來看看GPT-4V的解讀是否與你的感受相符或存在某些出入?
https://ithelp.ithome.com.tw/upload/images/20231108/20154415XDSmNmfxUg.png
第二幅畫的解讀:
https://ithelp.ithome.com.tw/upload/images/20231108/20154415JBCxS47QQV.png
接下來,我們將會請 GPT-4V 根據客觀標準評估上述兩幅畫的美學價值:
https://ithelp.ithome.com.tw/upload/images/20231108/20154415vEiAeXuxpE.png
這是 GPT-4V 給的評論,你覺得 ChatGPT給予的評論如何呢?
https://ithelp.ithome.com.tw/upload/images/20231108/20154415D9jhl5s1XY.png

  • 同一畫面中不同情緒的詮釋

在之前的實驗中,我們已探索了 GPT-4V 分析圖像對人情感的影響力。更有趣的是,GPT-4V 能從不同的角度詮釋相同的畫面,這似乎讓我們想起事情通常都有其正反之分。現在,我們嘗試請求 GPT-4V 從正面積極與負面消極的觀點描述一個畫面。首先,讓我們看看它如何從正面積極的角度進行描述:
https://ithelp.ithome.com.tw/upload/images/20231108/201544152cVXHAbgmo.png
再來,我們看看它如何以負面消極的角度解讀這張照片:
https://ithelp.ithome.com.tw/upload/images/20231108/201544154Od6Gl7grm.png
這是不是令人驚奇?同一個場景,只要切換描述的方式,似乎就能讓你的情感隨之起伏。感覺就像被情緒牽引著一樣,不是嗎?

加碼實驗 - 美術老師的角色扮演

GPT-4V 在描述畫面的情緒影響,以及背景氣氛和光線所引發的感受上,表現得相當精準和細緻。於是,在挑選實驗案例的過程中,我們有了一個念頭:若讓 ChatGPT 扮演美術老師,並考慮到學生的個性來評析其畫作,它會不會給出有深度的教學建議?下文我們要與大家分享的,是與一位學生進行的畫作對話實驗。這名學生深感 ChatGPT 的建議很有幫助。在經過原作者的同意之下,我們今天順便和與各位分享這段實驗的原始指示和 ChatGPT 所提的建議內容。若你也熱愛動手塗鴉,何不嘗試請教 ChatGPT,看它能否帶給你一些新的啟示?
https://ithelp.ithome.com.tw/upload/images/20231108/20154415dAzK85n5Sy.png
以下是 ChatGPT 的回覆:
https://ithelp.ithome.com.tw/upload/images/20231108/20154415cvDC8yByEi.png

結論

本文深入探討了 GPT-4V 在抽象視覺理解、智力測驗及情商方面的表現能力。透過多項實驗,我們可以清楚地看到這個模型在解讀情緒、理解圖像細節以及從多角度進行詮釋的出色能力。其中,以美術老師角色扮演的實驗作為一個有趣的插曲,突顯了 GPT-4V 在更具創意性的任務上的應用潛力。總結來說,GPT-4V 不僅在基本的視覺和智力測驗上展現了高度的競爭力,其對人類情感和感受的敏銳捕捉也證明了它在情商領域的深厚潛力。期待未來能看到更多這樣的模型在各領域的廣泛應用和發展。


如果您喜歡我們這樣的內容,很歡迎到這裏訂閱我們的電子報,我們接下來的內容會在這裏優先發佈: ChatGPT 落地研究 | Ted (substack.com)


上一篇
[30+4] GPT-4V 的視覺標記及連續圖像理解能力
下一篇
[D30+6] GPT-4V 的創新應用 - 產業上的可能應用
系列文
以 OpenAI 以及 LangChain 實做我的聊天機器人41
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言