iT邦幫忙

2024 iThome 鐵人賽

DAY 25
0

距今約兩個月前(2024.8.21),有位Reddit的網友利用Claude3.5 Sonnet進行LeetCode刷題,
並用9美元在24小時內完成633道題目,成功率(success rate)為86%,
震驚整個論壇,而「軟體工程師會不會被取代」又再次充斥整個網際網路。
https://ithelp.ithome.com.tw/upload/images/20241005/20169030PiMNtkviGq.png

在擔心之前,這裡補充一個我們在驗證AI正確率的小知識:

我們在做模型推論(Model Inference)的驗證(Evaluation)有個前提,就是不能發生資料重疊(Data Overlap),也就是測試資料不可與訓練資料重疊。

今天這位Reddit 的朋友利用LeetCode當作測試資料,假設他所說的成功率為二元評估的準確率(Accuracy),
那今天他利用Claude3.5得到了86%的準確率(Accuracy),我們就要反過來檢視這633道的題目中是不是在Claude3.5的訓練資料裡。

可惜的是,Claude3.5並沒有提供它的model card和training details,所以我們無從得知是否有發生資料重疊。

不過近日有不斷有作家控告OpenAI及Anthropic著作權訴訟的新聞[1, 2]。我是相信這些LLM,一定跟治肩和找安一樣,有一定程度的涵蓋了LeetCode, HackerRank等解題網站的程式碼和Solutions。

Reference.
[1] The copyright lawsuits against OpenAI are piling up as the tech company seeks data to train its AI
[2] Authors sue Claude AI chatbot creator Anthropic for copyright infringement


上一篇
Day24: LLMs 為什麼不會數數兒
下一篇
Day26: AI會不會取代SWE? 讓我們把問題拆開來看
系列文
軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言