作為公開 LLM Chatbot 第一人的 ChatGPT,雖然有踩穩市場第一步的優勢,但各大研究單位推出的模型同樣來勢洶洶。在這激烈競爭的 AI 大戰中,最大的受益者可說是我們這些平凡的使用者與開發者。這些 AI 大廠不斷推出越來越強大的模型,整合的功能也越來越廣泛,定價也是相當親民,讓我們有更多的選擇。以下介紹一些 ChatGPT 的挑戰者們給大家參考,各位也不妨親身比較看看他們之間用起來的效果。
(Powered By Microsoft Designer)
在介紹其他挑戰者之前,筆者先來介紹「土豆挑戰」。
「花生」與「土豆」在臺灣用語裡面,通常都是指 "Peanut"。但是在中國用語裡面,只有花生是 "Peanut" 的意思,而土豆通常是 "Potato" 馬鈴薯的意思。語言模型能夠理解這種文化差異嗎?如果語言模型都使用了大量的網路爬蟲文本做訓練,那簡體中文的資料比例一定比繁體中文多了不只十倍,這是使用者基數的問題。所以語言模型傾向於將土豆解釋為馬鈴薯似乎也是一件滿自然的事情。
但這樣其實是不正確的!因為對我們臺灣人來說,土豆就是花生,不會因為這世界上很多人把土豆當成馬鈴薯,就抹滅了把土豆當成花生來用的文化。這並不是支語警察在龜毛,而是在談論語言模型常常出現的「偏見」現象。在開發語言模型時,除了不能讓模型產生色情、暴力、惡毒的言論以外,減少語言模型的偏見也是相當重要的課題。
筆者已經嘗試過許多模型,去詢問「花生與土豆的差異」、「花生與土豆的英文」等等,基本上沒有任何模型會把土豆當成花生。於是筆者將 Prompt 改得稍微友善一點:
請使用繁體中文回答。在臺灣,花生指的就是土豆。
在這個輸入裡面,已經限定了繁體中文與臺灣,也許能讓語言模型想起來這些用詞有些地方差異吧!筆者分別輸入到 GPT-3.5 與 GPT-4 裡面,發現都毫不猶豫的被反駁了。筆者將此問題戲稱為 Peanut Challenge 土豆挑戰。
「土豆挑戰」並不是業界或學界常見的稱呼,而是從偏見分析裡面挑出來的一道題目而已。
在接下來的介紹裡面,會透過這個土豆挑戰來觀察各語言模型的反應。
Bard 是由 Google 推出的 AI 助理,其基底模型為 PaLM 2 架構。一開始的功能與 ChatGPT 大致相似,但比較特別的是他不像 ChatGPT 會一個字一個字的顯示訊息,而是一次給你三份完整的回答。
作為一個預覽版的助手,目前似乎沒有收費相關的資訊,因此大家都能免費使用。Bard 前陣子終於支援中文對答,根據筆者使用的經驗,Bard 比較不容易把繁體中文跟簡體中文搞混,可能是因為 Bard 會參考使用者的習慣語言與所在地。
Bard 在推出新功能的過程中,會先開放給英文語系的使用者,再逐步開放給所有使用者。如果想要搶先體驗一下新功能的話,可以在網址列加上 ?hl=en
來「變成」英文語系使用者,但通常也只能使用英文互動。可參考此連結:英文版 Bard。
Google Bard 的基本使用與 ChatGPT 無異,筆者不再特別做介紹。而 Bard 就在昨天宣布了幾項新功能,連帶把上上次更新的新功能也推到所有使用者,其中最令筆者注目的就是「解讀圖片」的功能:
完整回覆請參考此對話連結。相當驚人的,Bard 知道圖片中的角色來自哪部動漫,而且看來也對「醒醒吧肥宅」的文化有一定程度的了解。除了這種趣味性的用法,也能拿來做一些比較實際的用途,例如:
上傳的圖片是來自 FlexGen 論文的截圖,完整回覆請參考此對話連結。筆者當時很疑惑為什麼說 FlexGen 比 Petals 快,明明圖表看起來都是 Petals 海放。Bard 提醒了原來是在說只生成 5 個 Tokens 的時候比較快。對我這種常常看論文看到頭昏眼花的人來說,能夠協助閱讀論文是個相當棒的功能。
除了閱讀論文,也能請 Bard 解讀表格:
筆者上傳的圖片同樣是來自 FlexGen 論文的截圖,完整回覆請參考此對話連結。基本上 Bard 的說明大致正確,比較明顯的錯誤是 B 其實是十億 (Billion) 的意思。可以使用截圖的形式,讓語言模型協助我們閱讀論文,避免了從 PDF 複製貼上時常常發生的格式錯誤,或者 Latex 語法過於複雜而有解讀困難的問題。
這種簡單的表格可能沒什麼看頭,於是筆者讓 Bard 挑戰台積電的財務報表:
完整回覆請參考此對話連結,這個回覆乍看之下好像沒問題,但其實仔細去比對表格內容,會發現錯誤百出!很多數字都對不起來,而且根本沒有貼負債資訊的表格,更沒有什麼 QR Code 在裡面。筆者猜想可能是這個表格太大,又沒有框線,看來這種表格還是相當有挑戰性。
除了圖片解讀以外,最新的 Bard 還能跟 Google Workspace 互動,像是 Gmail, Google Drive, Google Docs, YouTube 之類的。目前必須使用英文版的 Bard 才能使用此功能,其使用情況大致像這樣:
但我的雲端硬碟裡面其實有十幾份 NLP 的講義就是了。這個功能的效果如何,可能還有待觀察 🤔
目前 Google Bard 尚未跟 Google Search 做整合,筆者相當期待看到 Google Bard + Google Search 與 OpenAI ChatGPT + Microsoft Bing 的世紀大對決,雖然後者的功能目前也下線維護了 QQ
Bard 還提供了一個選單,可以調整回覆的長短或語氣:
目測其原理,應該就是再下一個 Prompt 要求 Bard 把回覆變長變短之類的。
在回覆的右上角還有 TTS 的按鈕,可以請 Google 小姐把回覆朗讀給你聽。
接著,我們讓 Bard 試試看土豆挑戰:
!!挑戰成功!!雖然台語發音的部份,筆者不太確定是否正確,但是 Bard 至少認同了我的說法,而不是像 ChatGPT 一樣反駁我。完整的回覆請參考此對話連結。
Bing Chat 是微軟 Bing Search 整合 GPT-4 的一個 AI 助手。與 ChatGPT 和 Bard 相比,Bing Chat 更像是擔任一個搜尋結果摘要者的角色。因為筆者是使用 Edge 當瀏覽器,所以可以直接從右方工具列存取 Bing Chat。如果只是想嘗試看看,也可以透過手機 App 下載 Bing 或 Edge,這兩個都可以使用 Bing Chat。
有趣的是,如果用 Edge 打開 Bard 的話,會在上面跳提示告訴使用者可以跟 Bing Chat 做比較,筆者也因此發現 Edge 原來還有切割頁面的功能!
Bing Chat 算是目前少數可以直接連網的 AI 助理,最基本的用法就是請他幫你查資料:
除了可以查詢資料以外,他也可以閱讀你當前正在瀏覽的頁面,例如我們打開【林信良紀念專輯】並詢問:
無論是瀏覽文章還是看新聞,都可以幫助我們快速閱讀文章內容,是個相當實用的能力。
在此向良葛格致敬,筆者從國中剛開始學寫程式的時候,就是看著良葛格的 C 語言教學長大的,感謝良葛格,RIP.
另外 Bing Chat 也有解讀圖片的功能,但筆者用起來感覺能力是比 Bard 稍弱一些。不過 Bing Chat 還有個蠻猛的能力,就是他還能生成圖片:
下方備註也毫不避諱的告訴使用者,其實這個圖像生成的功能就是來自 OpenAI 的 DALL-E 模型,但這邊是免費的!根據之前 OpenAI API 的介紹,其實調用 DALL-E API 是有點貴的 💸
如果想直接使用影像生成的功能,可以前往 Bing 影像建立工具裡面使用。在這邊生圖片好像都是免費的,至少筆者用到現在還沒被索取費用過。
Bing 除了 Chat 還有 Compose 的功能,也就是寫作工具,用起來大概像這樣:
可以選擇語氣、格式與長度,並根據標題產生一段草稿,看起來的確相當有趣!
接著,我們讓 Bing 也接受一次土豆挑戰:
!!挑戰成功!!因為直接整句話丟給 Bing 他好像會找不到任何東西 (Bing Search PLZ 🤦),所以筆者將 Prompt 改得像是搜尋關鍵字這樣。
Claude 是由 Anthropic 所開發的模型,Anthropic 是由前 OpenAI 的成員所創立的公司,頗有復仇者聯盟的姿態。可惜臺灣還不能使用,目前只在英美地區做測試。
但是沒關係,在 GitHub 上的 GodMode 專案讓你可以輕鬆駕馭各語言模型,其中就包含了 Claude 的各種模型,只要前往這個頁面登入就可以使用。
Claude 的特色是他支援超長輸入,最高可達 100K 的長度,對於超長文本的處理相對有優勢。筆者透過 GodMode 測試,也支援繁體中文的回答。另外,也經常看到網路評論說 Claude 寫程式的能力相對優異,但筆者實測請 Claude 寫個 GRU 的 Seq2Seq 模型,感覺是寫的挺掙扎,錯誤不少。
可惜筆者與 GodMode 相見恨晚,還沒什麼機會跟 Claude 相處,但還是推薦給大家,畢竟多一份選擇總是好的。如果未來有機會,再跟大家分享與 Claude 的相處心得。
雖然沒什麼用過 Claude,但土豆挑戰還是免不了的,使用模型為 claude-2
:
很可惜,挑戰失敗。感覺 Claude 大概知道花生與土豆在某些地方有用語上的差異,可惜最終還是搞混了。
訊飛星火是由中國科大訊飛所開發的模型,於 2023 年 9 月初上線,是個相當新的模型。任何人都可以用手機號碼登入並免費使用,但因為是中國的模型,所以只有簡體中文能用。就算在 Prompt 裡面要求使用繁體中文,他也不會理你。
但因為這模型滿新的,加上又是中國的模型,所以也沒用過幾次。但筆者簡單實測了幾篇新聞摘要,感覺效果是挺好的,個人認為是個相當有實力的模型。如果能撇除一些政治因素,我想應該會是中文圈相當有競爭力的模型。
畢竟是個中國的模型,筆者並不抱太大的期望讓訊飛星火挑戰看看:
嗯 ... 雖然論述好像半對半錯的,但已經算是滿出乎筆者意料之外的回答了。
在 ChatGPT 問世後不到一年的期間,各種強大的 AI Chatbot 就紛紛上線,也各自展現了他們的長處。身為使用者,個人認為要去多多使用不同的 AI 助理,瞭解各模型之間的優缺點,並根據自身狀況來選擇合適的工具,截長補短,相信能讓我們工作起來更有效率!
另外,我們也透過「土豆挑戰」來探討語言模型潛在的偏見問題。如何讓語言模型在各種文化用語之間斡旋,也是一件相當有挑戰性的問題。