Day25: LLMs 刷題的真相

2024 iThome 鐵人賽

DAY 25

AI/ ML & Data

16th鐵人賽 leetcode llm

1128 瀏覽

距今約兩個月前(2024.8.21)，有位Reddit的網友利用Claude3.5 Sonnet進行LeetCode刷題，
並用9美元在24小時內完成633道題目，成功率(success rate)為86%，
震驚整個論壇，而「軟體工程師會不會被取代」又再次充斥整個網際網路。

在擔心之前，這裡補充一個我們在驗證AI正確率的小知識：

我們在做模型推論(Model Inference)的驗證(Evaluation)有個前提，就是不能發生資料重疊(Data Overlap)，也就是測試資料不可與訓練資料重疊。

今天這位Reddit 的朋友利用LeetCode當作測試資料，假設他所說的成功率為二元評估的準確率(Accuracy)，
那今天他利用Claude3.5得到了86%的準確率(Accuracy)，我們就要反過來檢視這633道的題目中是不是在Claude3.5的訓練資料裡。

可惜的是，Claude3.5並沒有提供它的model card和training details，所以我們無從得知是否有發生資料重疊。

不過近日有不斷有作家控告OpenAI及Anthropic著作權訴訟的新聞[1, 2]。我是相信這些LLM，一定跟治肩和找安一樣，有一定程度的涵蓋了LeetCode, HackerRank等解題網站的程式碼和Solutions。

系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言