国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5編程成績有貓膩!自刪23道測試題,關(guān)鍵基準還是自己提的

0
分享至

白交 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

有人發(fā)現(xiàn),官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。



什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標。而SWE-bench Verified作為它的子集,本來一共有500個問題。

現(xiàn)在相當于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現(xiàn)在僅有0.4%的差距。



OpenAI這種自行忽略23道題的操作,已經(jīng)不是第一次了。

早在GPT-4.1發(fā)布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運行。



離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統(tǒng)評估模型的編程能力,所以決定自己再提煉一個子集。

現(xiàn)在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

本來以為GPT-5直播里出現(xiàn)圖表錯誤已經(jīng)夠離譜了,結(jié)果現(xiàn)在告訴我這里面的成績可能還有假?



OpenAI一直省略23個問題

已經(jīng)開始有網(wǎng)友發(fā)現(xiàn),GPT-5能力并不比Claude 4.1 Opus好多少。

現(xiàn)在來看,這個官方給的結(jié)果或許根本沒有參考價值。

網(wǎng)友們除了自行忽略部分測試題,“偽造了結(jié)果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。



而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發(fā)布時一樣,因為他們內(nèi)部的基礎(chǔ)設(shè)施運行不了剩下的23個問題。



今年4月份發(fā)布GPT-4.1時,在同一基準僅使用477個問題下得得分在54.6%。

當時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數(shù)值放在當時也是最高的。



而Anthropic這邊,其實也已經(jīng)發(fā)現(xiàn)了OpenAI這個操作。

就在Claude Opus 4.1發(fā)布公布編程成績之時,在文章的末尾有這么一句話。



對于Claude 4系列模型,他們繼續(xù)使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規(guī)劃工具”。

并在最后注明:在所有Claude 4模型中,他們報告的分數(shù)基于完整的500個問題。OpenAI模型的得分基于477問題的子集進行報告。



基準還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準,那這件事就更離譜了。

這不就相當于自己搬起石頭砸自己的腳啦嘛。



當時啊還是因為類似的原因——他們測試發(fā)現(xiàn)SWE-bench的一些任務(wù)可能難以解決甚至無法解決,導致SWE-bench無法系統(tǒng)性評估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。

他們共同發(fā)起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。

他們隨機抽取了1699個樣本,然后基于統(tǒng)一標準來進行標注。

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

標簽0和1 表示輕微;標簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應(yīng)予以丟棄。



此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發(fā)人員確定并實現(xiàn)解決方案所需的時間。

最終得到了500個經(jīng)過驗證的樣本,并且按照難度對數(shù)據(jù)集進行細分!昂唵巍弊蛹196個小于15分鐘的修復任務(wù),而“困難”子集包含 45 個大于 1 小時的任務(wù)。

結(jié)果現(xiàn)在這個子集又被OpenAI縮減了。

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

在這個榜單中,Claude 4 Opus還是占據(jù)著領(lǐng)先位置。



GPT-5也已經(jīng)發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區(qū)與我們分享。

參考鏈接:
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

火山詩話
2025-12-19 06:40:20
海南封關(guān),新加坡的沉默震耳欲聾!

海南封關(guān),新加坡的沉默震耳欲聾!

環(huán)球策論
2025-12-18 22:39:23
剛剛,哈佛長新冠研究突破!發(fā)現(xiàn)背后黑手

剛剛,哈佛長新冠研究突破!發(fā)現(xiàn)背后黑手

徐德文科學頻道
2025-12-18 21:44:08
新華社證實南京博物院賣了《江南春》,事情變得更加撲朔迷離

新華社證實南京博物院賣了《江南春》,事情變得更加撲朔迷離

銀河敘事
2025-12-19 13:00:27
云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒有底線了!

云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒有底線了!

胖胖說他不胖
2025-12-19 11:00:11
27歲女孩“巧巧”已不幸離世,體重僅35斤,命運坎坷!早年父親去世,母親改嫁,有嚴重抑郁癥

27歲女孩“巧巧”已不幸離世,體重僅35斤,命運坎坷!早年父親去世,母親改嫁,有嚴重抑郁癥

新民晚報
2025-12-19 15:05:51
潘周聃都選它!累計交付突破20萬臺,領(lǐng)克EM-P超電雙子星殺瘋了

潘周聃都選它!累計交付突破20萬臺,領(lǐng)克EM-P超電雙子星殺瘋了

Nice好車
2025-12-19 11:43:43
梅艷芳母親100歲大壽留影,四個孩子離世仨,如今過的比誰都瀟灑

梅艷芳母親100歲大壽留影,四個孩子離世仨,如今過的比誰都瀟灑

萬物知識圈
2025-12-18 09:12:45
2019年,被“港獨”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

2019年,被“港獨”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

知鑒明史
2025-12-18 18:21:51
吳京認祖多爾袞?原諒我不厚道地笑了,這文化水平實在笑死個人啊

吳京認祖多爾袞?原諒我不厚道地笑了,這文化水平實在笑死個人啊

寒士之言本尊
2025-12-18 12:10:25
10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無

10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無

沒有偏旁的常慶
2025-12-19 06:30:04
最新!抖音集團副總裁回應(yīng)出新規(guī)

最新!抖音集團副總裁回應(yīng)出新規(guī)

每日經(jīng)濟新聞
2025-12-16 21:12:04
赴日外國游客突破3900萬人次再創(chuàng)歷史新高 中國游客影響有限

赴日外國游客突破3900萬人次再創(chuàng)歷史新高 中國游客影響有限

顫抖的熊貓
2025-12-17 22:12:26
被認定為贗品的《江南春》圖卷2001年以6800元價格賣出!多部門調(diào)查最新進展

被認定為贗品的《江南春》圖卷2001年以6800元價格賣出!多部門調(diào)查最新進展

海峽網(wǎng)
2025-12-19 09:42:23
泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國造導彈!打到洪森父子投降?

泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國造導彈!打到洪森父子投降?

深度報
2025-12-17 23:06:04
日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國繼續(xù)人傻錢多?

日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國繼續(xù)人傻錢多?

風向觀察
2025-12-18 16:40:37
“日入過萬”的16歲深圳燒雞少年壓力來了!稱每天到手只有1000多

“日入過萬”的16歲深圳燒雞少年壓力來了!稱每天到手只有1000多

火山詩話
2025-12-19 11:47:47
亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

湖人崛起
2025-12-19 11:25:36
臨床PK完勝ChatGPT-5!國內(nèi)團隊造出首個OCT影像AI系統(tǒng)

臨床PK完勝ChatGPT-5!國內(nèi)團隊造出首個OCT影像AI系統(tǒng)

機器之心Pro
2025-12-16 13:16:06
俄領(lǐng)導人威脅稱,如果談判失敗,俄羅斯將“以武力”奪取領(lǐng)土

俄領(lǐng)導人威脅稱,如果談判失敗,俄羅斯將“以武力”奪取領(lǐng)土

山河路口
2025-12-17 22:34:47
2025-12-19 15:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11882文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

剎車失靈時速115飆490公里司機:下車后渾身抖無法說話

頭條要聞

剎車失靈時速115飆490公里司機:下車后渾身抖無法說話

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

教育
數(shù)碼
手機
本地
公開課

教育要聞

官宣!鼓勵高校為申報就業(yè)創(chuàng)業(yè)職稱的教師傾斜名額

數(shù)碼要聞

KTC發(fā)布新款27英寸2K 275Hz顯示器H27E6S 售價999元內(nèi)置音箱

手機要聞

追覓首款手機曝光:1.08億主攝、6.67英寸屏幕、5000mAh電池

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版