今日事項:
了解模型競技場 LMArena,了解其中的排名、優缺點,並從測試中選擇一隻自己喜歡的模型
如果文章對你有幫助的話,歡迎按讚或留言,讓我知道我不是一個人在這裡碎碎念(?),我會很感謝的❤️
我們在前一天 Day6 怪獸培育場-模型的一千種玩法 講述了可以玩模型的四種地方,但是在我們開始前,還有一件事情要做--挑選一個自己喜歡的模型。
主要是在選定地方互動之前,總要先有一個喜歡的神奇寶貝(模型)
吧!
不然之後四天介紹了這麼多地方,官網界面就不知道有幾個了,每個都要試過的話,光是註冊每一間網站進去就很花時間了好吧……
在 ChatGPT 出現之後,各家既有與新創廠商也跟著爭先恐後地推出自己研究的模型。
然後外界就開始了眼花撩亂的模式,恩,今天說 GPT 的模型分數很高、明天說 Google 的模型成為了第一名、後天又說馬斯克的 Grok 寫出來的文章多麼多麼棒……那麼問題來了,所以我要用的話要選誰?!
好吧,我是可以一個一個試啦,但是很累欸
?
而且最大的問題是,有些公司的高級模型要付費才能用,看了一下那個價格,不是一個月 20 美金就是 30 美金。
看了一下放在展示櫃上的「神奇寶貝」,再看一下口袋裡的錢包……對不起好像沒有那個能力。
於是就有好心人士出現,做了模型排行榜,為大家幫模型評分。
AI Analysis Leaderboard:https://artificialanalysis.ai/leaderboards/models
UGI Leaderboard:https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
一開始大家是拿什麼美國入學考試、奧林匹克數學大賽的考題來考 AI,然後大家就會說:那個誰誰誰模型的分數比較高,比較厲害,然後排名。
後來突然發現好像哪裡怪怪的,比如有的模型數學大賽的題解的出來,但十位數的數學不行
……比如某 GPT。
當初我的作業就請他解,然後難的什麼微積分都對了,結果最後在相加的時候算錯,真的是無語。
所以當時就有人提出這好像不太準確,於是創出了另一種評分方法,設計題目給他回答,這些題目有不同的偏向
,比如測他的創意、回答時的知識量、自由度等等;後續 DeepSeek 出現,政治審查回應分數也受許多人關注。
這的確幫助了非常多人挑選,但是還是有一個問題,不少排行榜都表示,題目不能公布
,以免 AI 在很多人都輸入、模型學習了之後,影響到結果。
這聽起來挺合理的…‥但還是有問題啊!誰知道你出的問題符不符合我們的需求呢?或許對這些人來說出的題目很 ok,但在用的人發現,自己的需求跟排名上的不一樣,這樣分數的普適度也不高。
所以就有人說……那不然我們不看這些用問題評分的分數,來看到底有多少人用?
從民主(?)的角度來說,越多人用的表示越多人喜歡嘛。
OpenRouter 流量排行榜:https://openrouter.ai/rankings
咦,從多少人用的方向來看的作法好像不錯,不過這要怎麼評?看網站的流量嗎?
這時候模型聚合平台跳出來了,大喊:「我我我!!這個我在行!」
這些模型聚合平台在做的就是集合各家模型,在站內或 站外API 提供使用者選擇使用,這時候你要看模型的流量,當然從平台看每天不同模型被用了多少最合適啊!
所以像是 OpenRouter 等 API 供應商就紛紛將自身平台每天不同模型的使用量
公布出了排行榜,讓人可以看看哪些是比較熱門的模型。
不過看到這裡,是不是還有覺得那些地方怪怪的?
某個模型用的人比較多,可以說明這是一個「熱門」、「CP值高」的模型,但是……這能夠代表這是一個「好模型」嗎?
比如 ChatGPT 最早進入了聊天型生成式 AI 的市場,吃了滿口先進者優勢的蛋糕,所以最多人一開始接觸的就是 OpenAI,那如果成習慣了
,在之後使用也不理其他模型,只用 OpenAI 模型,會不會有偏見的問題影響排名?
而為了成本的問題,如果使用者只選堪用且便宜
的,CP 值是高了,但是不是會影響排名?
所以在這樣的情況下,所謂的模型競技場 LMArena 就出現啦~
網站:https://lmarena.ai/
旁行榜:https://lmarena.ai/leaderboard
論文:https://arxiv.org/abs/2403.04132
GitHub:https://github.com/lm-sys/FastChat
LMArena 出現的過程也挺有趣的,這原本是 UC Berkeley 中一群學生的專案
,做著做著就創業了,獲得幾億美元的投資,其中一個主要創辦人還是個台灣學生。
(有興趣的可以看看新聞:什麼都不賣,只讓你投票:LMArena靠「AI評比」拿下1億美元募資)
原本的專案叫做 Chatbot Arena,在 2023 年成立,他們提出的觀點是:「社群可以決定他們喜歡那些模型,每個人都有發言權。」
至於為什麼後來選擇成立公司呢?團隊表示……LMArena 太受歡迎了啦!每個月百萬的流量,累積了 300 萬張的投票,每年下來要花個數百萬美元,已經不是個學校研究專案的規模了。
而這樣透明、自由,又有盲測這樣趣味性的工具,也吸引了許多的投資者看好。
LMArena 最有趣的地方就是,他全部的使用都是免費,不管你是要聊天、生成圖片 / 影片,通通不用錢,你只需要做一件事,就是生成完之後做投票,選擇哪一個模型做得比較好。
重點來了,這是一個盲測
,你要在投票之後才會知道究竟你喜歡的那個結果是出自哪一個模型。而這些不同人投票而成的結果,就可以做出排行榜,顯示出究竟哪一個模型是結果最好、最受歡迎的。
這就滿足了前面所說的好幾個問題:
一個個測試很累?
這裡有很多人投票的結果,直接告訴你哪個好一個個測試很貴?
這裡免費給你玩,頂級的聊天、圖片、影片模型也都可以玩到飽(只不過資料要公開共享)單一設定的問題會有偏頗?
這邊的問題是幾百萬個人丟出來的不同問題,投出來的票最可以有普適性只看流量的使用者偏見問題?
用盲測方式可以完全解決,誰好就是誰,不會有偏袒。綜合以上優勢,LMArena 的評分也成為了近年最有權威的模型排名之一。
從綜合排名的評分表可以看到,Claude Opus 4.1 (20250805-thinking-16K)
這個模型在各個角度(程式、創意、提示、多回合記憶…‥等)的表現都位居第一。
Google 的 gemini-2.5-pro
則後來居上位於第二名,只在提示和程式的部分稍微落後。
而 OpenAI 的 gpt-4o-latest-20250326
模型則落在第三,且數學只排在第 14 名(我當時看到的時候就想大喊:沒錯沒錯!!!)
在圖像生成榜單上面呢,最近最紅的 gemini-2.5-flash-image-preview (nano-banana)
排名第一位,這是在盲測的情況下投出來的票數,只能說這次 Google 的模型真逆天了,尤其在一致性方面。
而且當初這款模型推出來就是在 LMArena 中以 nanobanana 這個名稱出現,然後短短不到幾周時間就以輾壓式的評分跟第二名拉開距離,到後來 Google 才站出來說,這是我們的模型,一時間風頭大漲,真的是一次傳奇性成功的行銷。
排名第二的是大陸字節跳動的 seedream-4-high-res
,雖然票數比較少,但兩個模型也是穩居2、3名。
而後續則由在當初以自由度聞名的Flux推出的 flux-1-kontext-max
模型追上。
在 LMArena,所有的使用都是免費的,主要的模式有四種:競技場模式
、並行模式
、單模型聊天
、影片競技場
。
前三種模式都是在模型網站操作,而影片競技場要到 Discord 進行,而且要顯示模型要有兩個人投票,所以這邊就先不做介紹。
首先是最受矚目的競技場模式,在這裡可以選擇要聊天或生成圖片,結果出來投票之後,就可以揭曉這兩種分別是哪種模型。
首先在首頁的左上角選擇 Battle
,如果有需要聯網搜尋的話,可以打開 Web Search
紐(prompt 框中的地球符號)
在下面輸入你的 prompt,結果出來後他會要你投票,有四種選擇:左邊好
、平手
、都很差
、右邊好
投完票之後就可以知道各自是哪一個模型
其實這邊的結果我比較意外的是右邊這個,可以看到我輸入的問題是比較政治敏感(for 大陸)的問題,問台灣主權的隸屬
,結果右邊這個大陸出產的 Qwen 模型竟然回答得有模有樣,沒投票前我還以為是其他國家出產的模型。
這就是盲測的有趣與驚奇點所在啦!
首先在首頁的左上角選擇 Battle,並在聊天框點選圖片
在下面輸入你的 prompt,結果出來後他會要你投票,有四種選擇:左邊好、右邊好、平手、都很差
投完票之後就可以知道各自是哪一個模型
並排模式與競技場模式的主要差別就是,一個是你在開始前就可以先選擇模型
,另一個則是結果投完票出來才告訴你。
並排模式後面也是要投票的,但官網有說,這個投票不會跟盲測的結果一起算
(可能怕會影響結果)。
不過這個投票結果也可以拿來跟盲測結果比較,看偏見會不會影響投票結果……想想這也是一個挺有趣的研究議題?
首先在首頁的左上角選擇 Side by Side
,並可以於上方選擇模型,如果是要生成圖片的話先在下方 prompt 框點選圖片,這樣上面的模型也會更換成圖片模型可以選擇。
在下面輸入你的 prompt,結果出來後的投票不會影響排行榜成績
然後不出意外的,DeepSeek 果然一口官腔(呵呵)
在首頁的左上角選擇 Direct Chat,就可以與單一的聊天 / 照片生成模型聊天。
這個使用就跟一般在其他地方介面使用沒有太大的區別,而且可以免費用一些比較頂級的模型,只是要注意的是,在這裡聊天的數據都是屬於公開
的,所以比較隱私或可以辨識出個人資訊的資料,就不要在這邊聊了。
個人覺得 LMArena 真的是一個很神奇的網站,今天大家看完這篇文章之後都去玩玩看,反正免費的,而且真的很好玩!
在沒有廠商偏見、沒有成本考量的情況下,去盲測兩個不同的模型,是很有趣的一件事情。