iT邦幫忙

2023 iThome 鐵人賽

1

此為《GPT-4V 微軟評測報告 》第四章實測

前言

今天我將與大家分享《GPT-4V 微軟評測報告》的第四章實測。這一章的內容不僅豐富,更是相當精彩。若大家的時間允許,我強烈推薦你們至少快速瀏覽原始的報告。因為原報告中的實驗項目及細節非常完整,但由於篇幅的考量,我僅摘錄了部分項目。接下來,我會列舉一些讓我印象深刻的實驗,並在後續的段落中與大家分享實測的記錄。

另外,如果您喜歡我們這樣的內容,很歡迎到這裏訂閱我們的電子報,我們接下來的內容會在這裏優先發佈: ChatGPT 落地研究 | Ted (substack.com)

本篇實測項目

GPT-4V 在圖像辨識和語言詮釋方面展現出的能力,包括:

  • 對名人的辨識和語言描述(此項目實測結果與報告不同,詳見後文「ChatGPT 的侷限」)
  • 地標的辨識和語言描述
  • 各國料理的辨識和語言描述
  • 醫學影像的辨識和解說(此項目實測結果與報告不同,詳見後文「ChatGPT 的侷限」)

GPT-4V 在對照片內的空間解析上所呈現的能力,如:

  • 描述照片中各物體的相對位置

GPT-4V 對於照片內情境和常識的理解,例如:

  • 解釋照片中的幽默元素
  • 解讀和詮釋照片中的常識
  • 對照片中可能的情境進行推論

GPT-4V 對於照片中的圖表和設計的解讀,如:

  • 流程圖的理解和說明
  • 室內設計圖的理解和詮釋

最後,令人驚艷的是,GPT-4V 能根據提供的圖表直接生成繪製相似該圖表的程式碼。

現在,讓我們直接深入到上述功能的實測記錄。

驗證記錄

  • 對地標的辯識以及語言描述能力

我們實際選取了台灣的幾個景點進行測試。結果顯示,GPT-4V 對於較為知名的景點有較豐富的訓練資料,因此其描述也相對準確。然而,對於非國際知名的地標,它有時可能無法正確辨識,或者給出不夠精確的描述。我們將在「ChatGPT 的侷限」段落中提供具體的範例。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415hMbfwLYmL8.png

  • 對各國料理的辯識以及語言描述能力

從各國和各區域的料理描述中,我們發現如果某一菜餚的外觀有明確的特點,GPT-4V 的描述會較為精確和具體。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415EXU3GQ3mBj.png

https://ithelp.ithome.com.tw/upload/images/20231025/20154415zjSuoYuHGM.png

  • 照片內空間相對位置的判斷以及描述能力

令人印象深刻的是,GPT-4V 不僅能進行物件的辨識,它還可以判斷和描述照片中的空間感,例如下列圖片中物件之間的相對位置。
https://ithelp.ithome.com.tw/upload/images/20231025/201544152dfhnrKHBP.png

  • 照片內的笑點辨識

進一步地,除了客觀的空間描述,GPT-4V 也能理解照片內更深層的含義,例如梗圖的笑點,並進行相對應的描述。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415YcOBv27fnw.png

  • 照片內的常識理解及詮釋能力

當我閱讀報告並發現GPT-4V 能理解照片中的常識時,我感到十分驚訝。這使我思考,是否可以拿一些國高中課程內容,測試 GPT-4V 的說明能力和應用範疇。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415NTQPbDvsBt.png

  • 照片內可能情境的推論

除了上述的常識理解,GPT-4V 也能如偵探般根據照片中的線索進行推論。對於下圖的推理結果,你覺得如何呢?
https://ithelp.ithome.com.tw/upload/images/20231025/20154415qsUa1MeWhr.png

  • 流程圖的理解以及說明

在測試 GPT-4V 對於流程圖的理解時,我們發現其在辨識中文流程圖時會有一些誤判。這可能源於其對中文的理解能力還不夠成熟。然而,對於英文流程圖的判斷,其表現相對理想。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415Dq3koM23VO.png

  • 室內設計圖的理解以及說明

與流程圖的情況相似,當面對中文室內設計圖時,GPT-4V 的理解能力也受到了一些挑戰。但在處理英文設計圖時,其表現確實令人驚訝,下方是詢問的設計圖原稿:
https://ithelp.ithome.com.tw/upload/images/20231025/20154415UGhFTAFIaa.jpg
ChatGPT 的回覆:
https://ithelp.ithome.com.tw/upload/images/20231025/20154415OkD4lXyiAA.png
中文造成的設計圖判斷的幻覺版本,請見後方【ChatGPT 的侷限】段落。

  • 圖表的程式碼生成

最後,GPT-4V 能夠根據圖表生成相對應的程式碼。實際上,雖然生成的程式碼繪製出來的圖表與原始圖表不完全相同,但兩者非常接近,與 ChatGPT 的原始問答記錄如下:
https://ithelp.ithome.com.tw/upload/images/20231025/20154415OvzIaq0c1g.png

下方則是將 ChatGPT 生成的程式碼實際執行後繪製的圖表,大家可以看到,雖然不是完全相同,但是它們之間已經十分相近了。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415dmd5da61AJ.png

ChatGPT 的侷限

我們在上個段落已經和大家分享了一些令人印象深刻的驗證結果。在這裡,我們會提到一些和「微軟評測報告」結果有所出入,值得注意的侷限範例。

  • 公眾人物的判讀

ChatGPT 的第一個明顯侷限,在人物辯識上,很可能是基於保護個人隱私的考量,因此即使涉及公眾人物,它似乎都選擇不進行深入處理。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415R02mhJdwQo.png

  • 地標的判讀

在地標的判讀方面,主要集中在知名和國際性的景點,因為這些地方有足夠的訓練資料。對於較不知名的景點,例如台灣當地的「高跟鞋教堂」,ChatGPT 很可能提供不準確的資訊。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415minDYgWfje.png

  • 醫療影像的判讀

對於醫療影像,考慮到醫療領域的特殊性和敏感性,ChatGPT 似乎選擇避免詳細描述。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415zJfv0sGRbL.png

  • 中文流程圖的判讀

對於中文流程圖,ChatGPT 的反應不甚理想。這可能源於它在中文辯識上的不足,導致其給出的回答非但不精確,甚至接近胡說八道的程度。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415nuYt1ZG0yq.png

  • 中文室內設計圖的判讀

類似地,當涉及中文室內設計圖時,若圖像中包含大量的中文字,ChatGPT 的判斷明細那會出現偏差。
https://ithelp.ithome.com.tw/upload/images/20231025/20154415rnah6g94IA.png

結論

透過本文的深入探討和驗證,我們可以清楚地看到 ChatGPT 的優點和局限性。其在一些領域,如知名景點、國際料理的描述,以及對照片內的空間、情境等的認識上都展現了驚人的能力。然而,當涉及中文的辯識,特別是中文流程圖和室內設計圖的判讀,其效果似乎並不如人意。此外,出於對隱私和敏感領域的考慮,ChatGPT 在公眾人物和醫療圖像的辯識上也展現出保守的態度。

這些發現提醒我們,雖然人工智慧在不斷進步,但仍存在其固有的侷限。在未來的應用中,使用者應該明白這些工具的能力與侷限,確保其在合適的場合下得到最佳的利用。最後,期待隨著技術的進步,這些局限性能逐步被克服,使得 AI 更為完善、強大和有用。


如果您喜歡我們這樣的內容,很歡迎到這裏訂閱我們的電子報,我們接下來的內容會在這裏優先發佈: ChatGPT 落地研究 | Ted (substack.com)


上一篇
[D30+2] GPT-4V 工作模式與提示技巧
下一篇
[30+4] GPT-4V 的視覺標記及連續圖像理解能力
系列文
以 OpenAI 以及 LangChain 實做我的聊天機器人41
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言