距今約兩個月前(2024.8.21),有位Reddit的網友利用Claude3.5 Sonnet進行LeetCode刷題,
並用9美元在24小時內完成633道題目,成功率(success rate)為86%,
震驚整個論壇,而「軟體工程師會不會被取代」又再次充斥整個網際網路。
在擔心之前,這裡補充一個我們在驗證AI正確率的小知識:
我們在做模型推論(Model Inference)的驗證(Evaluation)有個前提,就是不能發生資料重疊(Data Overlap),也就是測試資料不可與訓練資料重疊。
今天這位Reddit 的朋友利用LeetCode當作測試資料,假設他所說的成功率為二元評估的準確率(Accuracy),
那今天他利用Claude3.5得到了86%的準確率(Accuracy),我們就要反過來檢視這633道的題目中是不是在Claude3.5的訓練資料裡。
可惜的是,Claude3.5並沒有提供它的model card和training details,所以我們無從得知是否有發生資料重疊。
不過近日有不斷有作家控告OpenAI及Anthropic著作權訴訟的新聞[1, 2]。我是相信這些LLM,一定跟治肩和找安一樣,有一定程度的涵蓋了LeetCode, HackerRank等解題網站的程式碼和Solutions。
Reference.
[1] The copyright lawsuits against OpenAI are piling up as the tech company seeks data to train its AI
[2] Authors sue Claude AI chatbot creator Anthropic for copyright infringement